[빅콘테스트]2022 빅콘테스트 데이터 분석 퓨처스 리그(1) : 대회 개요 및 EDA

박유찬·2023년 5월 3일
0

대회 개요

2022년 8월 30일부터 진행한 2022 빅콘테스트 대회에 참여하게 되었다. 여러 분야 중에 데이터분석 분야의 퓨처스 부문에 지원하였다.

대회 주제는 '앱 사용성 데이터를 통한 대출신청 예측 분석'이다. 데이터는 FINDA라는 대출 지원 핀테크 기업에서 제공해주었으며, FINDA의 유저 데이터를 바탕으로 고객이 대출을 신청하는지 하지 않는지를 예측해보는 Binay Classification 과제를 수행하면 된다.

실제 고객 데이터를 직접 다룰 수 있다는 점이 매력적으로 다가왔고, 단순히 모델링을 통한 성능 개선이 유일한 TASK가 아니고, 고객 클러스터링을 통한 특성 분석과 같은 추가적인 과제도 수행할 수 있다는 점이 실제 데이터 분석 업무와 유사하다고 생각하여 참여하게 되었다.

대회는 [이진분류 예측모델 수립, 유저 군집화 후 군집별 특성도출] 2개의 과제로 이뤄져있었고, 그 중에서 예측 모델 수립 및 모델링을 위한 데이터가공 및 파생변수 형성과 같은 피처엔지니어링 분야를 담당했다.

  • 따라서 두번째 과제인 군집화의 경우는 생략하고, 첫번째 과제를 중점적으로 소개하도록 하겠다.

    데이터

    데이터는 FINDA측에서 제공한 실제 유저 데이터이며, 크게 3개의 파일로 구성되어 있었다.

    1. 유저 데이터
  1. 대출 신청 결과 데이터
  1. 앱 로그 데이터

EDA

결측치

각 컬럼의 결측치를 분석해본 결과, 여러 칼럼에서 기본적으로 누락된 데이터들이 존재하였다. 하지만, 그 중에서도 유저 데이터의 개인 회생자 여부 및 개인 회생자 납입 완료 여부의 경우에는 절반 이상의 결측치가 존재함을 확인했다.

외부 데이터

해당 대회에서는 외부 데이터 사용이 가능하여 사람들의 대출 심리에 영향을 미칠 수 있는 외부적 요인에 대해 고민해보았다. 다음과 같은 외부데이터들에 대한 의견이 나왔고, 여러 논문을 토대로 분류에 유의미한 영향을 미칠 수 있는 외부 변수를 선정하고자 하였다.

  • 날짜별 주가 (KOSPI)
    (코로나 시기에 주가와 대출 간 상관관계가 높았는데, 이로 미루어보아 코로나 시기 이후에도 주가 변동으로 인한 대출 심리 변동 기조는 유지될 것이라는 가정 → 귀납적으로 증명해보이자)
    (투자 목적으로 대출을 받는 경우에는 주가 지수가 의미 있을 것)
  • 주택 가격
  • 소비자심리지수

파생변수

로그 데이터는 사용자의 앱 사용 로그가 순차적으로 표현되어 있어 분석이 어려워 이를 분석가능한 새로운 형태로 표현하는 과정이 필요했다. 따라서 유저의 앱 로그에서 가장 중요한 항목인 한도조회를 했는지 하지 않았는지로 새로운 변수를 만들자는 의견이 나왔다.

앱 인터페이스가 영향을 미치지는 않을까?

위 사진은 실제 FINDA 앱 이용시 확인할 수 있는 대출 신청 인터페이스 화면이다. 특정 조건을 입력한 유저는 여러 종류의 대출을 선택할 수 있는데, 이 때 인터페이스 정렬은 FINDA 추천 순이 되거나 단순히 최저 금리를 기준으로 정렬될 수도 있다.
대출에 대해 깊은 지식이 없는 사용자들의 입장에서 볼 때, 상위에 등록된 대출 상품의 경우 더 많은 노출, 더 많은 선택을 받을 것으로 판단하였고, 그에 따라 상위에 랭크된 대출 상품에 더 많은 가중치를 주는 파생변수를 새롭게 생성하고자 하였다.

Imbalanced Data

대출 신청 결과 데이터를 보면 대출 신청을 한 행이 굉장히 적은 imbalanced한 데이터이다. 당연한 이유이지만, 한 유저가 단순히 하나의 대출 상품만을 신청하는 것이 아니라 여러 대출 상품을 선택하고 그 중에서 일부(보통 하나의) 상품만을 선택하기 때문이다.

따라서 중요한 점은, 한 유저가 있을 때 해당 유저가 대출을 신청하는지 하지 않는지를 파악하는 것에서 나아가서, 만약 신청을 한다면 여러 대출 상품들 중에서 어떤 상품을 선택하는지 역시 파악하는 과정이 필요하다.

profile
찬찬유유

0개의 댓글