카이제곱 분포의 근사
(X1,X2,...,Xk−1)∼multinomial(n,p1,...,pk−1) 일 때,
표본의 크기가 충분히 크다면 다음 확률 변수는 카이제곱 분포를 근사적으로 따른다.
Qk−1=i=1∑knpi(Xi−npi)2→χ2(k−1)
다항분포의 확률 변수들은 "각 카테고리에 시행 결과가 속하는 횟수"가 정의이기 때문에, 이를 이용해 사건 발생의 빈도, 확률 분포의 동질성 등을 검정한다.
적합도 검정
위와 동일하게 (X1,X2,...,Xk−1)∼multinomial(n,p1,...,pk−1)이고, 다음과 같이 가설을 설정하자.
H0:p1=p10,p2=p20,...,pk−1=pk−10
H1:not H0
따라서 귀무 가설은 "각 사건의 발생 확률이 어떤 분포와 동일하다라는 것은 주장하고, 대립 가설은 p1,p2,...,pk−1 중 하나라도 사전에 알고 있던 분포와 다르다는 것을 주장한다.
검정에 사용하는 검정통계량은 Qk−1을 사용한다.
Qk−1=i=1∑knpi0(Xi−npi0)2→χ2(k−1)
만약 귀무 가설이 옳다면, 실제 뽑히는 xi들의 값은 E(Xi)=npi0와 비슷할 것이므로 Qk−1은 작은 수치가 나올 것이다.
반대로 Qk−1이 큰 수치가 나온다는 것은 실제 표본 값과 귀무 가설에서 주장하는 분포 사이의 괴리가 크다는 것을 의미한다. 따라서 이 경우에는 귀무 가설을 기각한다.
따라서 기각역을 다음과 같이 설정한다. (Qk−1≥0이기 때문에 기각역은 항상 우측에 있다)
C={Qk−1∣Qk−1≥c}