이상값은 여러 종류가 있다. 삭제해야하는 경우도 있고 그냥 놔둬야 하는 경우도 있다.
평균으로 부터 3표준편차 떨어진 값 (각각 0.15%)
기하평균 - 2.5 X 표준편차 < data < 기하평균 + 2.5 X 표준편차
box plot에서 울타리 밖에 있는 값을 말한다.
Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)
를 벗어나는 데이터
극단값이 많아진 경우 1.5
를 곱하는 대신 3
을 곱해준다.
기하평균을 이용한 제거
R에서 geo_mean을 통해 제거
하단, 상단 %
이용한 제거
10% 절단 (상,하단 5%에 해당하는 데이터 제거)
극단갑 조정
상한값과 하한값을 벗어나는 값들을 하한 상한값으로 바꾸어 활용
극단값은 절단(제거)방법보단 조정 방법을 이용하는 것이 데이터 손실율이 적어져 설명력도 높아진다.