[S4E1] 0. Binary Classification with a Bank Churn Dataset

정원석·2024년 1월 12일
0

캐글

목록 보기
2/5
post-thumbnail

캐글의 플레이 그라운드
24년의 첫번째 대회이다.
링크는 Binary Classification with a Bank Churn Dataset 이다.

이진 분류 대회이고, 캐글의 기본인 Titanic 대회와 같은 분류모델인 만큼 뭔가 쉬울 것 같다.

하지만 문제는 이번 대회의 데이터는 약 16만개의 데이터를 가지고 있는 것이다.
그리고 은행 연장을 할지 말지에 대해서 판단해야 하기 때문에 데이터의 Column에 대한 지식도 가지고 있어야 한다.
(그래야 EDA를 하니까)

데이터 정보

Customer ID: A unique identifier for each customer
Surname: The customer's surname or last name
Credit Score: A numerical value representing the customer's credit score
Geography: The country where the customer resides (France, Spain or Germany)
Gender: The customer's gender (Male or Female)
Age: The customer's age.
Tenure: The number of years the customer has been with the bank
Balance: The customer's account balance
NumOfProducts: The number of bank products the customer uses (e.g., savings account, credit card)
HasCrCard: Whether the customer has a credit card (1 = yes, 0 = no)
IsActiveMember: Whether the customer is an active member (1 = yes, 0 = no)
EstimatedSalary: The estimated salary of the customer
Exited: Whether the customer has churned (1 = yes, 0 = no)

상당히 복잡하다

그리고 평가지표가 roc score이다. 이것도 좀 낯설다.
뭐 하다보면 비슷하겠지.

Evaluation

Submissions are evaluated on area under the ROC curve between the predicted probability and the observed target.

profile
이기적이타주의자

0개의 댓글

관련 채용 정보