수치형
- 결측치 대체(Imputation)
- 수치형 변수를 대체할 때는 원래의 값이 너무 왜곡되지 않는지도 주의가 필요합니다.
- 중앙값(중간값), 평균값 등의 대표값으로 대체할 수도 있지만,
- 회귀로 예측해서 채우는 방법도 있습니다. (다른 변수를 참고해서 채워볼 수도 있습니다)
- 스케일링 - Standard, Min-Max, Robust
- 변환 - log
- 이상치(너무 크거나 작은 범위를 벗어나는 값) 제거 혹은 대체
- 오류값(잘못된 값) 제거 혹은 대체
- 이산화 - cut, qcut
범주형
- 결측치 대체(Imputation)
- 인코딩 - label, ordinal, one-hot-encoding
- 범주 중에 빈도가 적은 값은 대체하기