Lending Club 금융 분류 프로젝트 - TIL
1. 프로젝트 개요
- Lending Club 소개
- 분석 목적
- 대출 상환 여부 예측
- 채무 불이행률 감소 및 손실 방지
2. 데이터 개요
- 데이터셋: accepted_2007_to_2018Q4.csv
- 데이터 크기: 약 2,260,710건, 151개 컬럼
- 데이터 유형: 실수형(113), 범주형(38)
- 주요 변수 19개 선정 이유
- 텍스트 변수 제거
- 중복 의미 제거
- 미래 정보 제거
- 결측치 과다 변수 제거
- 최종 주요 변수 리스트 (대출 금액, 기간, 이자율 등)
3. 데이터 전처리
- 결측치 처리
- 이상치 처리
- IQR 방식 이상치 탐지
- 금액 데이터 로그 변환
- 나머지 수치형 컬럼 클리핑
- 데이터 변환
4. EDA (Exploratory Data Analysis)
- 대출 상태 분포 (불균형 확인)
- 대출 기간, 금액, 월 상환금 분포 분석
- 주택 소유 형태, 대출 목적 분포 분석
- FICO 점수, 이자율, 대출 시기 분포
- 변수 간 상관관계 분석
- 대출 금액과 월 상환금 높은 상관관계(0.98)
- 다중공선성 제거
- 이자율만 유지, 대출 등급 제외
- 직업, 세부 등급 변수 제거
- 최종 모델링용 14개 독립 변수 + 1개 종속 변수 확정
5. 모델링
- 평가 지표 선정
- Recall(0), F1-Score, ROC-AUC
- Sampling 전략 비교
- No Sampling
- Under-Sampling (최종 선택)
- Over-Sampling (SMOTE)
- 클래스 가중치 조정
- 모델 비교
- Logistic Regression
- Random Forest
- XGBoost (최종 선택)
- CatBoost
- LightGBM
- 성능 요약
- Recall(0) 68%
- F1-score 43%
- ROC-AUC 0.71
6. SHAP 해석
- 주요 영향 변수
- 이자율, 대출 기간, FICO 신용 점수, DTI
- 주요 패턴
- 이자율 높을수록 상환 실패 위험 증가
- 대출 기간 길수록 상환 실패 위험 증가
- FICO 점수 높을수록 상환 성공 가능성 증가
7. 결론 및 제안
- 대출 심사 강화
- FICO 점수 680 이하 추가 심사
- 고이자 + 장기 대출 고객 리스크 관리
- 장기 대출 승인 기준 강화
- 상환 예측 모델 실전 적용
- 대출 승인/거절 지원
- 사후 리스크 모니터링 및 관리 자동화