qqplot은 분위수대조도로 불리는 정규모집단 가정을 하는 방법 중 하나이다. 수집 데이터를 표준정규분포의 분위수와 비교하여 그리는 그래프로 데이터의 정규성 가정에 대한 검토를 가능하게 한다.
모집단이 정규성을 따른다면 직선의 형태로 그려지게 된다.
how to interpret qqplot
위의 링크의 해설을 많이 번역을 하면서 나도 qqplot에 대해 이해했다.
분위수(Quantile)란 데이터의 분포에서 전체 넓이를 일정 비로 나누어 위치에 있는 값으로 사분위(Quartile)와 다른 것이다. 분위수가 사용된 예로 사분위를 들 수 있다. 복습 차원에서 사분위수를 되짚어보자면 통계학에서 Min(최솟값) - Q1(제1 분위수) - Median(중위수) - Q3(제3 분위수) - Max(최댓값)을 의미하는 개념으로 각 0분 위수(최솟값), 1/4 분위수(Q1), 2/4 분위수(Q2=중앙값), 3/4 분위수(Q3), 4/4 분위수(최댓값)를 의미한다.
qqplot에서도 마찬가지로 위와 같은 분위수 개념이 적용된다. qqplot은 표준정규분포의 분위수와 이에 대응하는 분포(측정한 실제 데이터의 분포)의 분위수를 x, y 좌표평면에 plotting하는 개념입니다.
x축의 y축 및 (대략) 예상 분위수에 따라 정렬된 샘플 값을 살펴볼 때, 그림의 일부 섹션에 있는 값이 이론적인 분포에서 가정하는 것보다 더 집중되어 있는지 아니면 덜 집중되어 있는지를 확인할 수 있다. 이 값을 그림으로 나타내면 그림일부 섹션에 있는 값이 전체 선형 추세와 어떻게 다른지 확인할 수 있다.
위 그림에서 빨간 선이 이론상의 분포이고 점들이 실제 데이터의 값이다.
위의 네 그림은 이론상의 분포와 실제 분포가 다른 것을 나타낸 QQ plot들이다.
보다시피, 빨간 선에서 멀리 떨어져있는(less concentrated) 점은 전체 선형 관계( 덜 빠르게 증가한다고 가정하는 것보다 더 많은 집중 지점을 증가시킨다. 이상치의 경우 표본의 밀도의 차이(y축에서 위로 확 올라간 것) 또는 상수 값의 spike에 해당된다. 이렇게 하면 heavy tail 또는 light tail을 발견할 수 있으므로 이론적인 분포보다 크거나 작은 왜도 등을 확인할 수 있다.
아래의 그림은 다양한 분포를 가진 qqplot들이다.
하지만 무작위성은 표본이 작다면 의미를 모호하게 만드는 경향이 있다
n=21 이상이면 결과는 여기에 표시된 것보다 훨씬 더 가변적일 수 있다. - I위의 여섯 그림은 여러 유형의 qqplot을 보기 좋게 만들기 위해 약간의 개량을 한 것이다. 때로는 직선적인 관계가 곡선처럼 보이고, 곡선 형태의 관계가 직선적으로 보이고, heavy tailed가 꼬이는 등의 형식으로 보이곤 한다. 작은 샘플일수록 모양이 더 불명확하게 보일 때가 많다.:
이러한 feature보다 더 많은 feature(예: 이산성)을 식별할 수 있지만, n=21에서는 이러한 기본 특성(feature)조차 찾기 어려울 수 있다; 우리는 모든 작은 변동을 '지나치게' 해석하려고 하지 말아야 한다. 표본 크기가 커질수록 일반적으로 plot이 '안정화'되며, noise를 나타내기보다는 feature을 보다 명확하게 해석할 수 있게 된다. 일부 매우 heavy-tailed한 분포에서는 보기 드문 큰 특이치가 상당히 큰 표본 크기에서도 사진이 잘 안정화되는 것을 방해할 수 있습니다.
이 예시들은 곡률이나 변동하는 정도의 특정한 양에 대해 얼마나 걱정해야 하는지를 결정할 때 유용하다.
일반적으로 더 적합한 해석 가이드에는 더 작고 더 큰 표본 크기의 시각화도 포함된다.