이상값

아따맘마·2020년 11월 15일
0

데이터 전처리

목록 보기
3/5

이상값이란?

이상값은 여러 종류가 있다. 삭제해야하는 경우도 있고 그냥 놔둬야 하는 경우도 있다.

  • 의도치 않게 잘못 입력 --> 삭제
  • 의도치 않게 입력되었으나 분석 목적에 부합되지 않는 경우 --> 제거

  • 의도하지 않은 현상이지만 분석에 포함되야 하는 경우 (ex) 부채비율이 300%인경우)
  • 의도된 이상값(fraud, 불량)인 경우

이상값 인식 방법

ESD

평균으로 부터 3표준편차 떨어진 값 (각각 0.15%)

기하평균 이용

기하평균 - 2.5 X 표준편차 < data < 기하평균 + 2.5 X 표준편차

사분위수 이용

box plot에서 울타리 밖에 있는 값을 말한다.
Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1) 를 벗어나는 데이터
극단값이 많아진 경우 1.5를 곱하는 대신 3을 곱해준다.

극단값 절단 방법

  • 기하평균을 이용한 제거
    R에서 geo_mean을 통해 제거

  • 하단, 상단 %이용한 제거
    10% 절단 (상,하단 5%에 해당하는 데이터 제거)

  • 극단갑 조정
    상한값과 하한값을 벗어나는 값들을 하한 상한값으로 바꾸어 활용

극단값은 절단(제거)방법보단 조정 방법을 이용하는 것이 데이터 손실율이 적어져 설명력도 높아진다.

profile
늦게 출발했지만 꾸준히 달려서 도착지점에 무사히 도달하자

0개의 댓글