[통계] 이상치 판단 및 imputation

기린이·2022년 5월 26일
0

통계지식

목록 보기
4/18

상자그림

출처

최솟값 : 제 1사분위에서 1.5 IQR1을 뺀 위치이다.
제 1사분위(Q1) : 25%의 위치를 의미한다.
제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미한다.
제 3사분위(Q3) : 75%의 위치를 의미한다.
최댓값 : 제 3사분위에서 1.5 IQR을 더한 위치이다.
최솟값과 최댓값을 넘어가는 위치에 있는 값을 이상치(Outlier)라고 부른다.

IQR은 아래와 예제와 같이 구할 수 있다.

예를 들어, 데이터가 7, 9, 16, 36, 39, 45, 45, 46, 48, 51인 경우
Q1 = 14.25
Q2(중위수) = 42
Q3 = 46.50
사분위간 범위(IQR) = 32.25
1.5 IQR = 32.25 x 1.5 = 48.38

시그마

정규분포에서

1시그마는 68.3%
2시그마는 95.4%
3시그마는 99.7%의 값을 가진다.

3시그마를 벗어나는 값을 이상치로 판단할 수 있다.

profile
중요한 것은 속력이 아니라 방향성, 공부하며 메모를 남기는 공간입니다.

0개의 댓글