[3] 3-3 기초분석 및 데이터 관리

jdsilver96·2022년 2월 20일
1

adsp

목록 보기
26/26

1. 데이터 EDA(탐색적 자료 분석)

2. 결측값 인식

3. 결측값 처리 방법

가. 단순대치법(Single Imputation)

  1. completes analysis: 결측값 데이터 제거
  2. 평균대치법(Mean Imputaition): 데이터의 평균으로 대치
    비조건부 평균대치법: 관측데이터의 평균의로 대치
    조건부 평균대치법: 회귀분석을 활용한 대치법
  3. 단순확률대치법(Single Stochastic Imputation): 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법
    Hot-deck
    nearest neighbor

나. 다중대치법(Multiple Imputation)

  • 단순대치법을 한번에 하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
  • 1단계(대치) - 3단계(분석) - 3단계(결합)

4. R에서 결측값 처리

  1. complete.cases()
    데이터 내 레코드에 결측값 있으면 False, 없으면 True 반환
  2. is.na()
    결측값을 NA로 인식하여 결측값이 있으면 True, 없으면 False 반환
  3. DMwR 패키지의 centralImputation()
    NA 값에 가운데 값(central value)로 대치
    숫자는 중위수, 요인은 최빈값으로 대치
  4. DMwR 패키지의 knnImputation()
    NA 값을 k최근 이웃분류알고리즘을 사용하여 대치
    k개의 주변 이웃까지의 거리를 고려해 가중평균한 값 사용
  5. Amelia 패키지의 amelia()
    time-series-cross-sectional data set 모델은 결측갑싱 존재할 경우, 바로 에러 발생
    randomForest 패키지의 rfImpute() 함수를 활용해 NA 결측값을 대치한 후 알고리즘에 적용

5. 이상값 인식과 처리

가. 이상값이란?

나. 이상값 인식 방법

  1. ESD(Extreme Studentized Deviation)
  2. 기하평균 - 2.5 x 표준편차 < data < 기하평균 + 2.5 x 표준편차
  3. 사분위수 이용하여 제거
    이상값 정의: Q1-1.5(Q3-Q1) < data < Q3+1.5(Q3-Q1)를 벗어나는 데이터

다. 극단값 절단(trimming) 방법

  1. 기하평균을 이용한 제거 geo_mean
  2. 상단, 하단 %를 이용한 제거
    • 10% 절단(상하위 5% 해당)

라. 극단값 조정(winsorizing) 방법

상한값과 하한값을 벗어나는 값들을 상한, 하한값으로 바꾸어 활용하는 방법

profile
데이터사이언티스트(NLP)

0개의 댓글