자주 만나게 되는 null값, 즉 누락된 값들이다..
1. 결측치 종류
Missing completely at random (MCAR) - 완전 무작위 결측
- 결측값의 발생이 다른 변수와 상관이 없는 경우
ex) 전산오류, 통신문제 등으로 데이터 누락
Missing at random (MAR) - 무작위 결측
- 결측값의 발생이 특정 변수와 관련이 있으나 얻고자 하는 결과와는 상관이 없는 경우
Not missing at random (NMAR) - 비무작위 결측
2. 결측치 처리 방법
| 결측치 비율 | 처리 방법 |
|---|
| 10% 미만 | Deletion or Imputation |
| 10% 이상 20% 미만 | Model-based method |
| 20% 이상 | Model-based method |
2-1. 제거 (Deletion)
- MCAR일 때만 사용 가능
- 데이터의 손실 즉 표본의 수 감소로 통계적 검정력 저하
- 표본의 수가 충분하고 결측값이 10-15% 이내일 때에는 결측값을 제거한 후 분석하여도 결과에 크게 영향을 주지 않음
1) Listwise Deletion
- 결측치가 존재하는 행(instance) 전체를 삭제하는 방식
- 데이터 표본의 숫자가 적은 경우 표본의 축소로 인한 검정력 감소
2) Pairwise Deletion
- 분석에 사용하는 속성(attribute)에 결측치가 포함된 행만을 제거하는 방식
- Listwise 방법에 비해 더 많은 instance를 가지고 분석 가능
2-2. 대치 (Imputation)
1) 단순대치법 (Single Imputation)
- 결측치의 대체값으로 하나의 값을 선정하는 방식
- 결측치가 무작위로 발생한 것이 아닐 경우 Mean, Correlation, Regression Coefficient와 같은 Parameter 추정치의 편향(bias) 발생
- 이러한 추정 편향으로 인해 아예 결측값을 제거하는 것보다 통계적 특성이 더 나빠질 수 있음
2) 평균값 대치 (Mean Imputation)
- 결측치가 포함된 feature 내에서 결측치를 제외한 나머지 관측값들의 대표값(Mean, Median, Mode)으로 결측치를 대체
- 데이터가 연속형 실수값이면서 대칭분포일 경우 평균이 좋고, 연속형 실수값이면서 왜도가 큰 분포일 경우 중앙값을 이용하는 것이 좋음
- 데이터가 범주형이거나 정수값인 경우 최빈값을 이용
3) 회귀 대치 (Regression Imputation)
- 관측값과 결측치 간에 강한 상관관계가 존재한다는 가정 하에 관측치 간의 회귀식을 통해 결측치를 예측
- 결측치가 포함되지 않은 변수를 feature(독립변수)로, 결측치가 포함된 변수를 target(종속변수)로 하여 회귀식을 구성하고, 추정 결과 얻은 회귀식의 예측값으로 결측치 대체
4) 확률적 회귀 대치 (Stochastic regression Imputation)
- Regression Imputation 방법에 Random Residual Value를 추가하해주어 결측치를 예측
- Single Imputation 방법들 중 편향이 제일 적은 결과 보여주는 방법
🔥 한계
결측치를 실제로 관측된 값으로 가정하고 다른 변수들을 기반으로 결측치를 예측하는 것이므로 결측치 대체의 불확실성을 고려하지 않음
결측치가 fitted value(추정된 회귀선 상의 값)로 대체되기 때문에 오히려 실제 관측값보다 계수 추정 신뢰도가 과대평가되는 경향 존재
참고 블로그 - https://velog.io/@seungwoong12/missingvalues