배경, 목적, 유형 등
어떤 데이터를 활용해서 어떤 값을 예측해야 하는지?
회귀인지, 분류인지?
주어진 데이터가 무엇인지?
어떻게 접근해서 문제를 풀어야 할지?
배경지식, 사전지식을 사용할만한 점이 있는지?
평가지표 파악
데이터 구조 탐색, 몇 가지 통계값 구해보기
제공된 파일별 용도 파악
데이터 양(info, shape)
피처 이해(이름, 의미, 데이터타입, 결측치, 고유값 개수 등)
훈련 vs 테스트 데이터 차이(분포가 비슷한지, train에는 있지만 test에는 없는 피처가 있는지 등)
타겟값 파악(train에 명확히 없는 경우도 있음)
데이터 시각화(중요 피처 탐색)
다양한 그래프를 활용해 데이터 전반을 깊이있게 살펴봄
이 과정에서 어떤 피처가 중요한지, 피처끼리 어떻게 조합해서 새로운 피처를 만들지, 어떤 점을 주의해서 모델링할지 인사이트를 얻음
e.g. 왼쪽으로 치우친 분포 -> 로그 변환해서 조금 더 정규분포에 가깝게 만들어줌
이진분류에서 타겟값 분포가 불균형
특정 피처의 고유값별 타겟값 1인 비율이 비슷하다? -> 타겟값을 예측하는데 별로 도움이 안되는 피처일 수 있다
피어슨 상관관계 히트맵 -> 다중공선성을 띄는 피처들 제거
피처 파악
이상치, 결측값 파악