Pandas에서는 결측치를 NA, NaT, np.nan, None 등으로 표현한다.
이러한 결측치를 적절히 처리하는 것은 데이터 분석과 모델링의 정확도 및 신뢰성을 높이는 핵심 과정이다.
결측치 처리 방법은 크게 다음 세 가지로 나눌 수 있다.
각 방법마다 장점과 단점이 존재하며, 데이터의 특성에 따라 적절한 방법을 선택해야 한다.
| 번호 | 방법 | 설명 | 장점 | 단점 |
|---|---|---|---|---|
| 1 | Mean Imputation | 변수의 평균값으로 결측치를 대체 | 변수의 평균 유지 | 데이터 변동성 감소 |
| 2 | Substitution | 다른 데이터에서 값을 가져와 대체 | 새로운 데이터 활용 가능 | 데이터 왜곡 가능 |
| 3 | Hot Deck Imputation | 비슷한 데이터를 랜덤 샘플링하여 대체 | 랜덤 샘플링으로 변동성 확보 | 일관성 부족 가능 |
| 4 | Cold Deck Imputation | 특정 규칙을 적용해 유사한 값으로 대체 | 규칙적인 대체로 일관성 유지 | 랜덤성 부족 |
| 5 | Regression Imputation | 결측 변수를 회귀 분석으로 예측하여 대체 | 변수 간 관계 유지 가능 | 변동성 부족 |
| 6 | Stochastic Regression Imputation | 회귀 분석 후 랜덤 오차 추가 | 변수 간 관계 유지 + 랜덤성 추가 | 계산 비용 증가 |
| 7 | Interpolation & Extrapolation | 시간 순서 데이터를 보간법으로 대체 | 시계열 데이터 활용 가능 | 시간 데이터 아니면 적용 어려움 |
| 8 | k-NN Imputation | k-NN 알고리즘으로 유사한 데이터 활용 | 변수 간 관계 유지 가능 | 대량 데이터에서 계산 비용 증가 |
| 9 | Multiple Imputation (MICE) | 여러 개의 대체값을 생성 후 평균 | 정교한 보완 가능 | 모델링 과정이 복잡 |
| 10 | Bayesian Imputation | 베이지안 모델을 사용하여 대체 | 불확실성 고려 가능 | 계산 복잡 |
| 11 | Mode Imputation | 최빈값(가장 많이 등장한 값)으로 대체 | 빠르고 쉬움 | 데이터 왜곡 가능 |
| 12 | Expectation-Maximization (EM) | 확률 모델을 통해 반복적으로 대체 | 데이터 패턴 유지 가능 | 계산 복잡 |
| 13 | GAIN (GAN-based Imputation) | GAN을 활용하여 결측치를 생성 | 자연스러운 대체 가능 | 모델 학습 필요, 비용 증가 |
| 14 | Deep Learning Imputation | 딥러닝(Autoencoder 등) 활용 | 복잡한 패턴 학습 가능 | 대량 데이터 필요 |
| 15 | Domain-Specific Imputation | 도메인 지식을 활용하여 대체 | 특화된 대체 가능 | 일반화 어려움 |
Regression Imputation, k-NN Imputation 같은 방법은 변수 간 상관관계를 반영하여 결측값을 대체함. 결측치 처리는 데이터 분석에서 정해진 절대적인 방법이 없다.
데이터의 목적과 분석 방향을 고려하여 가장 적합한 방법을 선택하는 것이 핵심이다.