인공지능과 데이터분석을 공부하기 위해 캐글 필사를 진행할 예정이다.필사 방법은 데이터 과학 및 캐글 입문자를 위한 캐글 필사 알아보기 와캐글 그랜드마스터 이유한님의 캐글 코리아 캐글 스터디 커널 커리큘럼 로 진행할 예정이다.한 주에 하나씩 끝내는 걸 목표로 잡고,공부한
캐글의 플레이 그라운드24년의 첫번째 대회이다.링크는 Binary Classification with a Bank Churn Dataset 이다.이진 분류 대회이고, 캐글의 기본인 Titanic 대회와 같은 분류모델인 만큼 뭔가 쉬울 것 같다.하지만 문제는 이번 대회의
Exploratory Data Analysis 데이터셋 출처 Pima Indians Diabetes Database | Kaggle 데이터 구성 Pregnancies : 임신 횟수 Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도 Blo
다양한 옵션을 지정하여 모델의 성능을 개선해볼 수도 있지만 feature engineering을 해본다.수치의 범위가 넓으면 수치형 변수의 조건이 너무 세분화되어 tree가 깊어진다.데이터셋 출처Pima Indians Diabetes Database | Kaggleht
특성공학(feature engineering)을 통해 유의미한 column을 구했고, 데이터에 사용하자.DTpredicttree_plotmax_depth 값을 조정하기만 해도 성능이 좋아집니다. 너무 tree 깊이가 얕으면 언더피팅이 일어납니다.from sklearn.