카이제곱 검정이란?
💡
두 범주형 변수에 대한 분석 방법. “기대되는 분포와 실제 관측된 분포가 유의미하게 다른가?” 를 판단하는 통계적 검정 방법
쉽게 말하자면, 관측된 값들이 “우연”인지, 아니면 실제로 차이가 있는것인지를 확인하는 방법이다. T-test가 평균 비교용이라면, 카이제곱 검정은 비율/분할표(빈도표) 비교용이다.
종류
- 적합도 검정
- 단일 범주형 변수
- 예를 들어, 주사위를 60번 던졌을 때 1~6이 균등하게 나오는지 확인하고 싶다면?
- 기대빈도 : 60/6 = 10
- 관측빈도 : 실제 나온 횟수
- 기대 vs 관측 차이가 큰지 X^2 통계량으로 검정
- 사용 상황
- 제품 불량 유형 비율이 기존과 같은가?
- 고객 지역 분포가 예상과 같은가?
- 독립성 검정
- 두 범주형 변수 간의 독립성/관련성
- 예를 들어, 성별(남/여)와 구매여부(구매/미구매)가 관련이 있는가?
- 성별이 바뀌어도 구매율이 동일하다면 = 독립
- 성별이 바뀌었을 때 구매율이 동일하다면 = 독립 x
- 사용 상황
- 마케팅 : 특정 연령대와 상품 선호가 관련이 있나?
- 설문조사 : 정책 찬반이 이 지역과 관련이 있나?
- 동질성 검정
- 여러 집단 간 같은 분포를 가지는지
- 예를 들어, A,B,C 세개의 병원이 있다. 이때 치료 성공/실패 비율이 병원마다 같은가?
- 동질성 검정과 독립성 검정의 수식/절차는 거의 똑같고 해석만 살짝 다르다.
기본 공식
χ2=∑E(O−E)2
- 관측값(O) : 실제 데이터에서 나온 빈도
- 기대값(E) : 귀무가설이 맞다면 이렇게 나와야 한다고 이론적으로 예상되는 값
- 관측값과 기댓값이 비슷하면 X^2가 작다 → p값이 크다 → 우연일 수 있음
- 관측값과 기댓값의 차이가 크면 X^2가 커진다 → p값이 작다 → 우연이라 볼 수 없다 → 유의한 차이
독립성 검정 예시
“성별과 과자 선호가 관련 있는가?”
| 초코 | 감자칩 | 쿠키 | 합계 |
|---|
| 남자 | 30 | 20 | 10 | 60 |
| 여자 | 10 | 30 | 20 | 60 |
| 합계 | 40 | 50 | 30 | 120 |
독립성 검정이므로
가설 H0 = “성별과 과자 선호는 독립이다.” (귀무가설)
Eij=전체합(해당행합)×(해당열합)
이므로
남자 - 초코 간의 기대값
- 남자 행 합 = 60
- 초코 열 합 = 40
- 전체 = 120
E=12060×40=1202400=20
즉. 만약 진짜로 성별과 선호가 상관 없었다면 남자-초코는 20명이 나와야 정상인데, 실제로는 30명이 나옴.
이걸 모든 칸에 대해 계산해서 O, E를 얻는다.
각 셀마다
E(O−E)2
를 구해서 전부 더하면 그게 X^2의 통계량이다.
→ X^2의 값이 클수록 H0(귀무가설)을 기각할 가능성이 높아진다.
자유도
독립성 검정에서 자유도는
df=(행개수−1)×(열개수−1)
df와 χ² 값을 가지고 χ² 분포표로 p-value를 구해서 p < 0.05면
→ 성별과 과자 선호도는 통계적으로 유의하게 관련이 있다고 해석할 수 있음.
특징
- X^2값은 0 이상이다.
- 값이 클수록 “귀무가설 하에서 나올 확률이 적은 케이스”
- X^2분포는 오른쪽으로 긴 꼬리를 가진 분포이다.(오른쪽 꼬리 검정이라고도 한다.)
- p-value는 귀무가설이 맞을 때, 계산한 X^2값 이상이 나올 확률이다.
카이제곱 검정 사용 시 주의 사항
- 데이터는 “빈도”여야함
- 기대빈도 조건
- 모든 셀의 기대 빈도 ≥ 5 (일반적으로)
- 너무 작은 빈도면 Fisher의 정확검정 고려
- 표본이 충분히 커야함
- 연속 데이터는 직접 x
- 필요하면 범주화(예 : 나이 → 20대/30대/40대) 필요
- 두 범주형 변수 사이에 통계적으로 유의한 관련이 있는가 ? 에 대해서만 알 수 있음
- 얼마나 관련이 있는지, 얼마나 차이가 있는지에 대해서는 알 수 없다.
T-test와의 차이
| 항목 | t-test | 카이제곱 검정 |
|---|
| 데이터 타입 | 연속형(숫자, 평균) | 범주형(카테고리, 빈도) |
| 질문 | 평균의 차이? | 비율/분포의 차이? |
| 예시 | 남/녀 평균 키 차이 | 남/녀 흡연 비율 차이 |
| 검정통계량 | t | χ² |
| 분포 | t분포 | 카이제곱 분포 |