사분위수는 통계의 변량을 도수 분포로 정리했을 때 적은 것으로부터 1/4, 1/2, 3/4 자리의 변량값을 의미한다.
이를 각각
로 표현한다.
여기서 Q2는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미하는 '중앙값'과 동일하다. (표기만 다르게 할 수 있을 뿐)
사분위수가 확률변수의 분산도를 대략적으로 파악하는 용도로도 활용되지만, IQR이라는 개념을 이용해 이상치 탐지 용도로 가장 많이 활용된다.
IQR(InterQuartile Range)이란?
한국어로는 '사분위수 범위'라 하며, 앞에서 설명한 Q3에서 Q1을 뺀 값을 의미한다.
이상치에 대한 판별을 이 IQR을 이용해 할 수 있다.
대략 이 정도면 정상 데이터 범위로 보자는 최솟값과 최댓값에 대한 공식이 있는데, 사분위수와 IQR이 이용된다.
이상치란 다른 변량값과는 극단적으로 다른 값으로, 결국 양 끝단의 정상 범위를 벗어난 값이 된다.
따라서 앞에서 설명한 최솟값과 최댓값의 범위를 벗어나면 이를 이상치로 보는 것이다.