캐글필사 - American Express Default Prediction

Sooin Yoon·2025년 3월 21일

google colab link : 링크텍스트

Description

Whether out at a restaurant or buying tickets to a concert, modern life counts on the convenience of a credit card to make daily purchases.
레스토랑에 있거나 콘서트 티겟 사거나, 현대삶은 의존한다 신용카드의 편리함을 일상적인 구매를 하기위해서
It saves us from carrying large amounts of cash and also can advance(미리, 선지급) a full purchase that can be paid over time.
그것은(신용카드) 구해준다 우리를 현금의 많은 양을 나르는것으로부터 그리고 또한
전체 구매 금액을 미리 지불해줄수있다, 시간을 두고 나눠서 갚을수 있다.
How do card issuers know we’ll pay back what we charge?
카드회사는 어떻게 알까 우리가 결제한 돈을 갚을 것을
That’s a complex problem with many existing solutions—and even more potential improvements, to be explored in this competition.
이것은(카드회사가 아는것) 많은 존재하는 해결이 있는 복잡한 문제이고 심지어 더 잠재적인 개선이 있다 탐구될(연구될) 이 대회에서
-> 이 문제는 이미 다양한 해결책이 존재하는 복잡한 주제이며, 이번 대회에서는 더 많은 잠재적인 개선 방안들이 탐색될수 있다,
Credit default(불이행) prediction is central to managing risk in a consumer lending business.
신용불이행예측은 소비자 대출 비지니스에서 위험을 관리하는 것의 중점이다.
Credit default prediction allows lenders to optimize lending decisions, which leads to a better customer experience and sound(건전한, 안정적인) business economics.
신용불이행예측은 돈을 빌려주는 자(금융회사)들가 대출 결정을 최적화하는것을 허락한다. 더 나은 소비자 경험과 건전한 사업 수익 구조로 이어진다.
Current models exist to help manage risk. But it's possible to create better models that can outperform(능가하다, 더 잘하다) those currently in use.
현재모델은 리스크를 관리하는데 도움을 주는것이 있다. 하지만 더 나은 모델을 만드는게 가능하고 현재 사용중인 것들보다 더 뛰어날수 있다.
American Express is a globally integrated payments company. The largest payment card issuer in the world, they provide customers with access to products, insights, and experiences that enrich lives and build business success.
아메리카 익스프레스는 세계적인 통합결제서비스회사이다. 세계에서 가장 큰 지불 카드 발급사로서 그들은 제공한다 고객들에게 상품, 인사이트(통찰) 그리고 경험에 접근가능하도록, 삶을 풍요롭게 하고 사업성공을 이루게 해주는
In this competition, you’ll apply your machine learning skills to predict credit default.
이 대회에서 신용불이행을 예측하기 위해 머신러닝기술을 적용할것이다.
Specifically, you will leverage(활용하다) an industrial scale data set to build a machine learning model that challenges the current model in production.
구체적으로 생산적인 현재운영중인 모델에 도전하는 머신러닝모델을 만들것이다 산업 수준의 데이터셋을 활용하여
Training, validation, and testing datasets include time-series behavioral data and anonymized customer profile information.
Training, validation, and testing dataset은 포함한다 시계열 행동된 데이터와 익명화된 고객파일정보가
You're free to explore any technique to create the most powerful model, from creating features to using the data in a more organic way within a model.
가장 강력한 모델을 만들기 위해 어떤 기술도자 유롭게 탐구할수있다. 모델 안에서 특징을 생성하는 것에서부터 데이터를 보다 유기적으로 활용하는 것까지
If successful, you'll help create a better customer experience for cardholders by making it easier to be approved for a credit card.
만약 성공한다면, 크레딧 카드승인을 더 쉽게 만드는 것을 통해 카드소지자들에게 더 나은 고객경험을 만들어 내는데 도움을 줄것이다.
-> 신용카드 승인이 더 쉬워져서 카드 사용자들이 더 나은 경험을 할수 있도록 돕게 된다.
Top solutions could challenge the credit default prediction model used by the world's largest payment card issuer—earning you cash prizes, the opportunity to interview with American Express, and potentially a rewarding new career.
제일 좋은 방안들은 도전을 할수있다 크레딧불이행예측모델에 사용되어진다 세게에서 가장큰 지불 카드 발급사로부터 너는 상금을 받을것이고 아메리칸 익스프레스에 인터뷰를 하는 기회를 가질것이고 잠재적으로 새로운 직업에 관련될수있다.

Overview

필사부분 : [27 place] - SequentialEncoder)
목표: 고객의 신용카드 연체(신용불이행) 가능성을 예측
데이터 특징: 고객별 시계열 거래 데이터 (최대 13개월), 익명화된 수치/범주형 피처 포함
접근 방식: 시계열 기반 특성 엔지니어링 + 단일 피처 모델 학습 + 앙상블

Evaluation (평가지표)

  • Amex Metric 공식 대회 평가 지표(단순 AUC, Accuracy로는 판단 어려움)
    → 0.5 * (normalized weighted gini + recall@top4%)
  • 거래 이력 시계열을 기반으로 미래 신용 상태 예측
  • 고객별 순차 패턴 포착이 중요
def amex_score(y_true, y_pred):
    return np.max([_amex_score(y_true, y_pred), _amex_score(y_true, -y_pred)])

EDA

  • 데이터 수: 약 55만 고객, 5천만 건 이상의 거래 이력
  • 데이터 구조:
    고객별 시계열 데이터 (13개월 이하)
    일부 피처 결측률 높음
    수치형 + 범주형 변수 혼합
  • 시계열 흐름: S_2는 거래 일자 → 고객별로 시간 순 정렬 필수
  • EDA에서 중요했던 포인트:
    고객별 row 수의 분포
    각 피처별 결측률
    범주형 변수의 클래스 분포

Dataset 구성

  • train.parquet: 훈련용 시계열 데이터 (고객 ID + 시계열 거래 이력)
  • train_labels.csv: 타겟 (불이행 여부)
  • testchunk*.parquet: 테스트 데이터 16개 청크
  • 대부분 피처명이 익명화 (D_39, B_1, R_5 등)

lessons learned

  • 단순한 전체 모델보다 단일 피처별 시계열 모델의 성능이 더 좋을 수 있음
  • 시계열 순서를 잘 정의하고, 패턴을 구조화하면 정보 손실 없이 정제 가능
  • generate_features 같은 커스텀 윈도우 함수는 재사용성이 높고 확장성 있음
  • Feature engineering > 모델 성능 튜닝
    → 데이터 구조를 이해하고 전처리/인코딩하는 능력이 훨씬 중요
  • 대용량 데이터를 chunk 단위로 나눠 처리하는 전략 실전에서 유용
  • Amex metric은 단순 accuracy, AUC와는 완전히 다른 전략 필요

0개의 댓글