지금까지 binomial distribution처럼 성공과 실패, 두 개의 category를 검증했다면 이제는 3개 이상의 category를 살펴볼 것이다.

표준 정규 분포를 따르는 독립적인 랜덤 변수 Yi 제곱의 합으로 표현할 수 있고

이것도 자유도가 n인 chi-square distribution을 따른다.

자유도가 높아질수록 비대칭적인 형태에서 대칭적인 정규 분포의 형태에 근사한다.
단일 요인에 대한 여러 유형(levels)을 비교하는 방법이다.
예를 들면 키보드라는 요인에서, 서로 다른 회사가 만든 A, B, C의 유형의 키보드 집단을 비교하는 것이다.
모든 관측수 n에 대해 항상 서로 다른 유형(category)의 수(Cell frequency(셀 빈도))를 모두 합한 값은 n이다.

확률(Cell probability)은 모두 더한 값이 1이어야 할 것이다.

우리는 cell probabilities가 특정한 값을 갖는지가 궁금하다. 때문에 two-sided 문제이고, p*는 맞는지 검증할 특정한 값이다.
귀무가설

이때 모든 cell probability의 합은 1이어야 한다.

만약 모든 cell probability가 uniform이라는 것을 검증하고 싶다면 귀무가설은 다음과 같다.

대립가설
이때 대립가설은 "적어도 귀무가설과 일치하지 않는 하나의 cell probability가 존재한다."
우리가 설정한 귀무가설은
sample data의 observed cell frequencies와

귀무가설에서 가정한 expected cell frequencies를

비교하여 검증하며 expected cell frequencies는 다음과 같이 주어진다.

이 두 set frequencies가 가까울수록 귀무가설은 더 타당하다.
결국 우리는 chi-square distribution을 이용해 p-value를 구할 것이다.

statistic이 제곱이므로 음수의 영역이 없기 때문에 two-sided지만 p-value는 한쪽 영역만 계산하면 된다.


expected cell frequencies > 5 의 조건을 만족해야만 chi-square distribution으로 근사할 수 있다.
만약 위 조건을 만족하지 못한다면 다른 category와 묶어서 새로운 category로 만들어 검증할 수 있다.

예를 들면 첫 번째 categorization이 성별, 두 번째 categorization이 흡연 여부라면,
남성 흡연자, 남성 비흡연자, 여성 흡연자, 여성 비흡연자의 cell frequency를 표에 나타낸다.
Contingency Tables : r x c
Cell frequencies : ith level of the first categorization, rth level of the second categorization

Row Marginal frequencies

Column Marginal frequencies

귀무가설은 pearson chi-square goodness of fit statistic을 사용하여 독립성을 검증할 수 있다.
expected cell frequencies

pearson chi-square statistic

degrees of freedom

p-value

결국 p-value가 0.1 이상이라면 독립이라고 보는 것이 타당하다.