1. 결측치 처리 방법
1.1 결측치를 결측 상태 그대로 이용하기
DataFrame 기준으로 np.nan, python 기준으로 None, JSON 기준으로 null 등 결측치 상태 그대로 두고 진행한다.
- 많은 양의 데이터에서 계절성, 추세 등 시계열 분석할 때 사용 가능
- 하지만 대부분의 알고리즘이 결측치를 처리 못하는 경우가 있음
1.2 dropna() (결측치 제거)
결측치가 있는 row, column 등을 제거하여 해결
- 결측치가 많은 양의 데이터에 비해 적은 양일 때 사용 가능
- 결측치가 많거나, 연속성에 큰 영향을 미치는 경우 불리함
1.3 0으로 대체
실제 0인 데이터가 결측치로 표기될 시 해당 결측치를 0으로 대체
- 실제 의미가 0을 갖고 있을 수 있는 경우 사용 (특정 제품의 판매 데이터)
- 실제 의미를 갖는 것이기 때문에 잘못된 정보 기입 시 분석 중 혼란 가중
1.4 -1로 대체
결측치를 -1를 대체
- 분류에서 사용 가능 (다른 데이터들이 연속성을 나타내지 않은 군집(클러스터)의 개념일 때)
- 연속성을 나타낼 때 사용 시 오류가 나타날 수 있음
1.5 평균으로 대체
결측치를 평균으로 대체
- 평균값으로 대체
- 전체적인 한 컬럼의 특성을 가져올 수 있지만, 행의 특성을 잃어버릴 수 있음
1.6 머신러닝 이용
머신러닝을 사용하여 값 대체
- 머신러닝을 활용하여 값을 대체하면, 전체적인 데이터의 방향성과 비슷하게 해석 가능
KNN 알고리즘(K최근접 이웃): 가장 비슷한 데이터 K개를 찾아서 그 데이터들의 평균값들 넣어서 표현
- 머신러닝에서 데이터셋의 크기가 확장될수록 컴퓨팅 리소스의 소모가 지수적으로 증가할 수 있음