Chapter
📗 2. 범주형 자료분석
📝 (1) 적합도 검정
📝 (2) 독립성 검정(test of independence)
📝 (3) 동질성 검정(test of homogeneity)
📗 2. 범주형 자료 분석
- 범주형 자료(categorical data)
관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류시켜 도수로 주어진 데이터
- 범주형 자료 분석(categorical data analysis)
범주형 자료에 대한 통계적 추론 방법
카이제곱 검정으로 추론함
EX) 성별에 따라서 선호하는 핸드폰 회사가 동일한가?
.
📝 (1) 적합도 검정(goodness of fit test)
✔ χ2=∑Ei(Oi−Ei)2, 자유도=범주의 개수-1
✔ O는 관찰 빈도(observed frequency): 데이터로부터 수집된 값
✔ E는 기대 빈도(expected frequency): 기대값과 비슷한 개념
✔ 예제) 주사위를 던져 아래와 같은 실험결과가 나왔을 때, 이 주사위가 공정한 주사위라고할 수 있는지 유의수준 0.05에서 검정해보자.
주사위 | 관측빈도 | 기대빈도 | 비율 |
---|
1 | 23 | 20 | 19.2% |
2 | 20 | 20 | 16.7% |
3 | 19 | 20 | 15.8% |
4 | 18 | 20 | 15.0% |
5 | 23 | 20 | 19.2% |
6 | 17 | 20 | 14.2% |
합계 | 120 | 120 | 100% |
H0:p1=p2=p3=p4=p5=p6=1/6 vs. H1:pi중 적어도 하나는 같지 않다.
χ2=∑Ei(Oi−Ei)2=20(23−20)2+20(20−20)2+20(19−20)2+20(18−20)2+20(23−20)2+20(17−20)2=209+0+1+4+9+9=2032=1.6
기각역: χ6−12 = 11.07
∴ χ2<χ52 = 1.6 < 11.07 이므로 귀무가설을 기각할 수 없다. 즉, 주사위는 공정하지 않다고 할 수 없다.
.
.
📝 (2) 독립성 검정(test of independence)
✔ 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정
✔ ∑i=1r∑j=1cEij^(Oij−Eij^)2 ~ χ(r−1)(c−1)2
자유도: (r-1)(c-1)=(열의 수-1)(행의 수-1)
✔ 예제) 지지하는 정당과 사는 지역(a,b,c구)은 관련이 있는지 알아보기 위해서 1,000명을 뽑아서 조사한 자료가 있다. 이때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자.
구분 | a구 | b구 | c구 | 계 |
---|
정당S | 198 | 218 | 185 | 601 |
정당T | 156 | 143 | 100 | 399 |
합계 | 354 | 361 | 285 | 1000 |
H0: 지역과 지지하는 정당은 서로 독립이다. vs. H1: 지역과 지지하는 정당은 서로 독립이 아니다.
우선 지역에 따른 정당의 기대도수를 구한다.
구분 | a구 | b구 | c구 | 계 |
---|
정당S | 1000(601)(354)=212.754 | 1000(601)(361)=216.961 | 1000(601)(285)=171.285 | 601 |
정당T | 1000(399)(354)=141.246 | 1000(399)(361)=144.039 | 1000(399)(285)=113.715 | 399 |
합계 | 354 | 361 | 285 | 1000 |
χ2=∑i=1r∑j=1cEij^(Oij−Eij^)2=212.754(198−212.754)2+216.961(218−216.961)2+...++144.039(143−144.039)2++113.715(100−113.715)2=5.329094
자유도 df=(3-1)*(2-1)=2
χ22=5.99
∴ χ2<χ22 = 5.329094 < 5.99이므로 귀무가설을 기각할 수 없다. 즉, 지역과 지지하는 정당은 독립이다.
.
.
📝 (3) 동질성 검정(test of homogeneity)
✔ 서로 다른 모집단에서 관측된 값들이 범주 내에서 동일한 비율을 나타내는지 검정
✔ 예제) 남녀의 핸드폰 선호가 동일한지 조사하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하라.
구분 | A사 | S사 | L사 | 계 |
---|
남자 | 50 | 30 | 20 | 100 |
여자 | 50 | 80 | 70 | 200 |
합계 | 100 | 110 | 90 | 300 |
H0: 남녀간의 선호하는 핸드폰 회사는 동일하다. vs. H1: 남녀간의 산호하는 핸드폰 회사는 동일하지 않다.
이전 예제에서 한 방법처럼 기대도수를 구한다.
구분 | A사 | S사 | L사 | 계 |
---|
남자 | 100*100/300 | 100*110/300 | 100*90/300 | 100 |
여자 | 200*100/300 | 200*110/300 | 200*90/300 | 200 |
합계 | 100 | 110 | 90 | 300 |
이제 검정통계량을 구한다.
χ2=33.3333(50−33.3333)2+36.6667(30−36.6667)2+...+60(70−60)2=19.31818
자유도 d.f=2
χ22=5.99
∴ χ2>χ22 = 19.31818 > 5.99이므로 귀무가설을 기각한다. 즉, 남녀간의 핸드폰 회사는 동일하지 않다.
.
.
.
.