[039] 기초통계 - 범주형 자료 분석/ 심화②

이연희·2023년 10월 11일
0

Chapter
📗 2. 범주형 자료분석
📝 (1) 적합도 검정
📝 (2) 독립성 검정(test of independence)
📝 (3) 동질성 검정(test of homogeneity)

📗 2. 범주형 자료 분석

  • 범주형 자료(categorical data)
    관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류시켜 도수로 주어진 데이터
  • 범주형 자료 분석(categorical data analysis)
    범주형 자료에 대한 통계적 추론 방법
    카이제곱 검정으로 추론함
    EX) 성별에 따라서 선호하는 핸드폰 회사가 동일한가?

.

📝 (1) 적합도 검정(goodness of fit test)

χ2=(OiEi)2Ei\chi^2 = \sum\frac{(O_{i}-E_{i})^2}{E_{i}}, 자유도=범주의 개수-1
✔ O는 관찰 빈도(observed frequency): 데이터로부터 수집된 값
✔ E는 기대 빈도(expected frequency): 기대값과 비슷한 개념

✔ 예제) 주사위를 던져 아래와 같은 실험결과가 나왔을 때, 이 주사위가 공정한 주사위라고할 수 있는지 유의수준 0.05에서 검정해보자.

주사위관측빈도기대빈도비율
1232019.2%
2202016.7%
3192015.8%
4182015.0%
5232019.2%
6172014.2%
합계120120100%

H0:p1=p2=p3=p4=p5=p6=1/6H_{0}:p_{1}=p_{2}=p_{3}=p_{4}=p_{5}=p_{6}=1/6 vs. H1:piH_{1}:p_{i}중 적어도 하나는 같지 않다.

χ2=(OiEi)2Ei=(2320)220+(2020)220+(1920)220+(1820)220+(2320)220+(1720)220=9+0+1+4+9+920=3220=1.6\chi^2 = \sum\frac{(O_{i}-E_{i})^2}{E_{i}}= \frac{(23-20)^2}{20}+\frac{(20-20)^2}{20}+\frac{(19-20)^2}{20}+\frac{(18-20)^2}{20}+\frac{(23-20)^2}{20}+\frac{(17-20)^2}{20}=\frac{9+0+1+4+9+9}{20}=\frac{32}{20}=1.6
기각역: χ612\chi_{6-1}^2 = 11.07
χ2<χ52\chi^2 < \chi_5^2 = 1.6 < 11.07 이므로 귀무가설을 기각할 수 없다. 즉, 주사위는 공정하지 않다고 할 수 없다.

.
.

📝 (2) 독립성 검정(test of independence)

✔ 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정
i=1rj=1c(OijEij^)2Eij^\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij}-\hat{E_{ij}})^2}{\hat{E_{ij}}} ~ χ(r1)(c1)2\chi_{(r-1)(c-1)}^2
자유도: (r-1)(c-1)=(열의 수-1)(행의 수-1)

✔ 예제) 지지하는 정당과 사는 지역(a,b,c구)은 관련이 있는지 알아보기 위해서 1,000명을 뽑아서 조사한 자료가 있다. 이때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자.

구분a구b구c구
정당S198218185601
정당T156143100399
합계3543612851000

H0:H_{0}: 지역과 지지하는 정당은 서로 독립이다. vs. H1:H_{1}: 지역과 지지하는 정당은 서로 독립이 아니다.

우선 지역에 따른 정당의 기대도수를 구한다.

구분a구b구c구
정당S(601)(354)1000=212.754\frac{(601)(354)}{1000} = 212.754(601)(361)1000=216.961\frac{(601)(361)}{1000} = 216.961(601)(285)1000=171.285\frac{(601)(285)}{1000} = 171.285601601
정당T(399)(354)1000=141.246\frac{(399)(354)}{1000} = 141.246(399)(361)1000=144.039\frac{(399)(361)}{1000} = 144.039(399)(285)1000=113.715\frac{(399)(285)}{1000} = 113.715399399
합계35435436136128528510001000

χ2=i=1rj=1c(OijEij^)2Eij^=(198212.754)2212.754+(218216.961)2216.961+...++(143144.039)2144.039++(100113.715)2113.715=5.329094\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij}-\hat{E_{ij}})^2}{\hat{E_{ij}}} = \frac{(198-212.754)^2}{212.754}+\frac{(218-216.961)^2}{216.961}+...++\frac{(143-144.039)^2}{144.039}++\frac{(100-113.715)^2}{113.715}=5.329094

자유도 dfdf=(3-1)*(2-1)=2
χ22=5.99\chi_{2}^2=5.99

χ2<χ22\chi^2 < \chi_2^2 = 5.329094 < 5.99이므로 귀무가설을 기각할 수 없다. 즉, 지역과 지지하는 정당은 독립이다.

.
.

📝 (3) 동질성 검정(test of homogeneity)

✔ 서로 다른 모집단에서 관측된 값들이 범주 내에서 동일한 비율을 나타내는지 검정

✔ 예제) 남녀의 핸드폰 선호가 동일한지 조사하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하라.

구분A사S사L사
남자503020100
여자508070200
합계10011090300

H0:H_{0}: 남녀간의 선호하는 핸드폰 회사는 동일하다. vs. H1:H_{1}: 남녀간의 산호하는 핸드폰 회사는 동일하지 않다.

이전 예제에서 한 방법처럼 기대도수를 구한다.

구분A사S사L사
남자100*100/300100*110/300100*90/300100
여자200*100/300200*110/300200*90/300200
합계10011090300

이제 검정통계량을 구한다.

χ2=(5033.3333)233.3333+(3036.6667)236.6667+...+(7060)260=19.31818\chi^2=\frac{(50-33.3333)^2}{33.3333}+\frac{(30-36.6667)^2}{36.6667}+...+\frac{(70-60)^2}{60}=19.31818

자유도 d.f=2d.f=2

χ22=5.99\chi_{2}^2=5.99

χ2>χ22\chi^2 > \chi_2^2 = 19.31818 > 5.99이므로 귀무가설을 기각한다. 즉, 남녀간의 핸드폰 회사는 동일하지 않다.

.
.
.
.

profile
안녕하세요, 데이터 공부를 하고 있습니다.

0개의 댓글