1) 데이터 크기 확인 과적합 가능성 확인 및 feature 선택
2) 특징별 기술 통계 특징 변환 및 이상치 제거
3) 특징 간 상관성 VIF 10 이상 피처 확인, 차원축소, AIC벌점화 등 피처 삭제
4) 결측치 분포 결측치 제거 및 대체(KNN SMOTE)
5) 변수 개수 차원 축소, 다중공선성 확인
6) 클래스 변수 분포 비용민감 모델 및 resampling
- 로그변환 장점
- ㅇ<x<1 범위에서 기울기가 매우 가파르고 짧다. 즉 x구간은 짧고, y구간은 음의 무한대~0으로 매우 크다.
- 따라서 0에 가깝게 모인 값들이 x로 입력되면, 그 함수값인 y 값들은 매우 큰 범위로 벌어진다. 로그함수는 0에 가까운 값들이 조밀하게 모여있는 입력값을 넓은 범위로 펼칠 수 있는 특징이 있는 것.반면, x값이 점점 커짐에 따라 로그함수의 기울기는 급격히 작아지면서 y값이 큰 차이 없이 좁은 구간 내에 모이게 된다.
- 결과적으로 데이터의 분포를 모았을 때 밀집되어 있는 부분은 퍼지게 퍼져있는 부분은 모아지게 만들 수 있는 것. 즉, 한쪽으로 치우친 분포를 로그변환을 취하면 정규분포화 시킬 수 있다.
- 로그변환시 np.log() -> np.log1p() : x=0이면 음의 무한대를 갖기 때문에, x+1을 해줘서 음의 무한대를 0으로 변환시키는 것.