Home Credit - Credit Risk Model Stability

MSMoon·2025년 4월 17일

kaggle 학습

목록 보기

5/18

목표: 고객의 신용 위험을 평가하여 대출 상환 가능성 예측
문제 유형: 지동학습 회귀 문제
데이터 배경: 서로 다른 시간대에서 수집된 고객 데이터를 포함하고 있어, 데이터 드리프트(data drift) 존재
-> application_train.csv, application_test.csv: 기본 신청 정보
-> bureau.csv, previous_application.csv: 과거 대출 기록
-> credit_card_balance.csv, POS_CASH_balance.csv, installments_payments.csv 등: 대출 사용 이력

DAYS_EMPLOYED의 이상치 값(365243)은 결측치로 간주 후 처리
AMT_CREDIT / AMT_INCOME_TOTAL 등 주요 비율 피처 생성
각 서브 테이블 (bureau, credit_card_balance 등)로부터 집계 통계 피처(agg features) 생성 후 application 테이블과 merge

데이터 전처리 및 특징 생성의 중요성: 다양한 파생 변수 생성(ex: 신청자 나이, 고용기간, 요일/월/년 등)이 모델 성능 향상에 크게 기여함을 확인
모델 해석 가능성 확보: SHAP 값을 활용한 feature importance bar plot, beeswarm plot을 통해 모델이 어떤 feature에 얼마나 의존하는지를 시각적으로 분석
모델의 안정성 분석: Gini 계수의 주차별 변화와 추세를 기반으로 모델의 시간적 안정성을 평가, slope, 평균, RMSD를 조합한 stability score를 통해 단순 성능뿐 아니라 실 운영에 적합한 모델인지 판단하는 좋은 기준이 됨
실행 환경의 한계 (Google Colab): 해당 필사를 진행하면서 RAM이 초과되어 세션이 중단되는 이슈가 있었음, 향후 고사양 계산이 필요한 모델 해석 작업은 로컬 환경 또는 고성능 클라우드 환경에서 진행하는 것이 바람직하다는 교훈을 얻음