[TIL]2025-04-29(ppt)

yeyeyeyeye·2025년 4월 29일

TIL

목록 보기
8/18

Lending Club 금융 분류 프로젝트 - TIL

1. 프로젝트 개요

  • Lending Club 소개
  • 분석 목적
    • 대출 상환 여부 예측
    • 채무 불이행률 감소 및 손실 방지

2. 데이터 개요

  • 데이터셋: accepted_2007_to_2018Q4.csv
  • 데이터 크기: 약 2,260,710건, 151개 컬럼
  • 데이터 유형: 실수형(113), 범주형(38)
  • 주요 변수 19개 선정 이유
    • 텍스트 변수 제거
    • 중복 의미 제거
    • 미래 정보 제거
    • 결측치 과다 변수 제거
  • 최종 주요 변수 리스트 (대출 금액, 기간, 이자율 등)

3. 데이터 전처리

  • 결측치 처리
    • 고용 기간, 대출자 직업 컬럼 제거
  • 이상치 처리
    • IQR 방식 이상치 탐지
    • 금액 데이터 로그 변환
    • 나머지 수치형 컬럼 클리핑
  • 데이터 변환
    • 범주형 변수 매핑 및 원-핫 인코딩

4. EDA (Exploratory Data Analysis)

  • 대출 상태 분포 (불균형 확인)
  • 대출 기간, 금액, 월 상환금 분포 분석
  • 주택 소유 형태, 대출 목적 분포 분석
  • FICO 점수, 이자율, 대출 시기 분포
  • 변수 간 상관관계 분석
    • 대출 금액과 월 상환금 높은 상관관계(0.98)
  • 다중공선성 제거
    • 이자율만 유지, 대출 등급 제외
    • 직업, 세부 등급 변수 제거
  • 최종 모델링용 14개 독립 변수 + 1개 종속 변수 확정

5. 모델링

  • 평가 지표 선정
    • Recall(0), F1-Score, ROC-AUC
  • Sampling 전략 비교
    • No Sampling
    • Under-Sampling (최종 선택)
    • Over-Sampling (SMOTE)
    • 클래스 가중치 조정
  • 모델 비교
    • Logistic Regression
    • Random Forest
    • XGBoost (최종 선택)
    • CatBoost
    • LightGBM
  • 성능 요약
    • Recall(0) 68%
    • F1-score 43%
    • ROC-AUC 0.71

6. SHAP 해석

  • 주요 영향 변수
    • 이자율, 대출 기간, FICO 신용 점수, DTI
  • 주요 패턴
    • 이자율 높을수록 상환 실패 위험 증가
    • 대출 기간 길수록 상환 실패 위험 증가
    • FICO 점수 높을수록 상환 성공 가능성 증가

7. 결론 및 제안

  • 대출 심사 강화
    • FICO 점수 680 이하 추가 심사
    • 고이자 + 장기 대출 고객 리스크 관리
  • 장기 대출 승인 기준 강화
    • 신용 점수, 소득 안정성 평가
  • 상환 예측 모델 실전 적용
    • 대출 승인/거절 지원
    • 사후 리스크 모니터링 및 관리 자동화
profile
안녕하세요? 데이터분석가 되고 싶어요.

0개의 댓글