캐글필사 - Loan Approval Prediction

Sooin Yoon·2025년 3월 12일

Overview

Tabular data : 행과 열로 이루어진 테이블 형태의 데이터로 csv, excel, SQL 등에서 볼수있음

  • 결측치 부분을 EnsembleRegressor(RandomForest, XGBoost, CatBoost, LightGBM) 클래스를 만들어 단순한 평균값이 아닌 데이터 패턴을 학습한 머신러닝으로 가장 적절한 값으로 결측치를 채움
  • Feature Engineering
    : 머신러닝 모델이 더 잘 학습할 수 있도록 기존 데이터를 변형하거나 새로운 변수를 생성하는 과정 즉, 데이터의 특징(feature)를 더 풍부하게 만들어 모델 성능을 향상시키는 기법
    - 기존변수에서 새로운 변수 만들기(원래 데이터에 없던 중요한 관계를 만들 수 있음)
    - 로그변환(Log Transformation) : 데이터가 특정 값이 너무 크거나 값차이가 너무 크면 모델이 제대로 학습하지 못해서 로그변환을 통해 압축하여 outlier(이상치)영향을 줄이고 데이터 분포를 안정화할 수 있음
    - Categorial dataf를 숫자로 변환(Encoding)
    - Polynomial Features(다항식변환) : 기존 변수에서 다항식(제곱, 곱 등)을 생성하여 비선형 관계를 학습할수 있도록 도움, 복잡한 관계를 반영할 수 있도록 변수 간 조합을 추가하는 기법
    - 특정 그룹 내에서 정규화(Grop Normalization) : 같은 카테고리 내에서 변수 값을 상대적으로 비교할수 있도록 함

Evaluation

Submissions are evaluated using area under the ROC curve using the predicted probabilities and the ground truth targets.
'제출된것'는 ROC curve를 아래 면적을 사용하여 평가된다 예측된 가능성과 실제 타겟을 사용하여

문제 정의 및 평가 Matrix

EDA

dataset

train.csv - the training dataset; loan_status is the binary target
test.csv - the test dataset; your objective is to predict probability of the target loan_status for each row 각 행에 대해 대출상태의 확률을 예측하는 것이 목적이다. sample_submission.csv - a sample submission file in the correct format

The dataset for this competition (both train and test) was generated from a deep learning model trained on the Loan Approval Prediction dataset.
이 대회의 데이터셋은 '대출승인예측'데이터을 사용해 훈련된 딥러닝 모델으로부터 만들어진다
Feature distributions are close to, but not exactly the same, as the original.
특징 분포는 비슷하지만 원본보다는 완전 똑같지는 않다
Feel free to use the original dataset as part of this competition, both to explore differences as well as to see whether incorporating the original in training improves model performance.
이 대회의 부분으로써 원본데이터를 사용하는 것은 상관없고

모델성능을 올리기위한 트레잉닝에서 원본과

Notebook 필사

Lesson Learned

1개의 댓글

comment-user-thumbnail
2025년 5월 16일

When you’re running a small sari-sari store, even small disruptions in cash flow can hurt. I needed money to restock before a busy holiday week, but didn’t have enough capital on hand. I used https://loans-online.ph/ to search for short-term loans tailored for self-employed individuals. I found one that worked with small vendors and only needed valid ID and business proof. Got ₱10,000, bought my inventory, and made enough profit to pay back in 14 days. I won’t use loans all the time, but in this case, it helped keep my business running when I needed it most.

답글 달기