1. 데이터 EDA(탐색적 자료 분석)
2. 결측값 인식
3. 결측값 처리 방법
가. 단순대치법(Single Imputation)
- completes analysis: 결측값 데이터 제거
- 평균대치법(Mean Imputaition): 데이터의 평균으로 대치
비조건부 평균대치법: 관측데이터의 평균의로 대치
조건부 평균대치법: 회귀분석을 활용한 대치법
- 단순확률대치법(Single Stochastic Imputation): 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법
Hot-deck
nearest neighbor
나. 다중대치법(Multiple Imputation)
- 단순대치법을 한번에 하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
- 1단계(대치) - 3단계(분석) - 3단계(결합)
4. R에서 결측값 처리
- complete.cases()
데이터 내 레코드에 결측값 있으면 False, 없으면 True 반환
- is.na()
결측값을 NA로 인식하여 결측값이 있으면 True, 없으면 False 반환
- DMwR 패키지의 centralImputation()
NA 값에 가운데 값(central value)로 대치
숫자는 중위수, 요인은 최빈값으로 대치
- DMwR 패키지의 knnImputation()
NA 값을 k최근 이웃분류알고리즘을 사용하여 대치
k개의 주변 이웃까지의 거리를 고려해 가중평균한 값 사용
- Amelia 패키지의 amelia()
time-series-cross-sectional data set 모델은 결측갑싱 존재할 경우, 바로 에러 발생
randomForest 패키지의 rfImpute() 함수를 활용해 NA 결측값을 대치한 후 알고리즘에 적용
5. 이상값 인식과 처리
가. 이상값이란?
나. 이상값 인식 방법
- ESD(Extreme Studentized Deviation)
- 기하평균 - 2.5 x 표준편차 < data < 기하평균 + 2.5 x 표준편차
- 사분위수 이용하여 제거
이상값 정의: Q1-1.5(Q3-Q1) < data < Q3+1.5(Q3-Q1)를 벗어나는 데이터
다. 극단값 절단(trimming) 방법
- 기하평균을 이용한 제거 geo_mean
- 상단, 하단 %를 이용한 제거
라. 극단값 조정(winsorizing) 방법
상한값과 하한값을 벗어나는 값들을 상한, 하한값으로 바꾸어 활용하는 방법