카이제곱 검정(Chi-Squared Test)

Minjung·2025년 11월 20일
post-thumbnail

카이제곱 검정이란?

💡

두 범주형 변수에 대한 분석 방법. “기대되는 분포와 실제 관측된 분포가 유의미하게 다른가?” 를 판단하는 통계적 검정 방법

쉽게 말하자면, 관측된 값들이 “우연”인지, 아니면 실제로 차이가 있는것인지를 확인하는 방법이다. T-test가 평균 비교용이라면, 카이제곱 검정은 비율/분할표(빈도표) 비교용이다.

종류

  1. 적합도 검정
    • 단일 범주형 변수
    • 예를 들어, 주사위를 60번 던졌을 때 1~6이 균등하게 나오는지 확인하고 싶다면?
      • 기대빈도 : 60/6 = 10
      • 관측빈도 : 실제 나온 횟수
      • 기대 vs 관측 차이가 큰지 X^2 통계량으로 검정
    • 사용 상황
      • 제품 불량 유형 비율이 기존과 같은가?
      • 고객 지역 분포가 예상과 같은가?
  2. 독립성 검정
    • 두 범주형 변수 간의 독립성/관련성
    • 예를 들어, 성별(남/여)와 구매여부(구매/미구매)가 관련이 있는가?
      • 성별이 바뀌어도 구매율이 동일하다면 = 독립
      • 성별이 바뀌었을 때 구매율이 동일하다면 = 독립 x
    • 사용 상황
      • 마케팅 : 특정 연령대와 상품 선호가 관련이 있나?
      • 설문조사 : 정책 찬반이 이 지역과 관련이 있나?
  3. 동질성 검정
    • 여러 집단 간 같은 분포를 가지는지
    • 예를 들어, A,B,C 세개의 병원이 있다. 이때 치료 성공/실패 비율이 병원마다 같은가?
    • 동질성 검정과 독립성 검정의 수식/절차는 거의 똑같고 해석만 살짝 다르다.

기본 공식

χ2=(OE)2E\chi^2 = \sum \frac{(O - E)^2}{E}
  • 관측값(O) : 실제 데이터에서 나온 빈도
  • 기대값(E) : 귀무가설이 맞다면 이렇게 나와야 한다고 이론적으로 예상되는 값
  • 관측값과 기댓값이 비슷하면 X^2가 작다 → p값이 크다 → 우연일 수 있음
  • 관측값과 기댓값의 차이가 크면 X^2가 커진다 → p값이 작다 → 우연이라 볼 수 없다 → 유의한 차이

독립성 검정 예시

“성별과 과자 선호가 관련 있는가?”

초코감자칩쿠키합계
남자30201060
여자10302060
합계405030120

독립성 검정이므로

가설 H0 = “성별과 과자 선호는 독립이다.” (귀무가설)

  • 기댓값 계산 :
Eij=(해당행합)×(해당열합)전체합E_ij =\frac{(해당 행 합)\times(해당 열 합)}{전체 합}

이므로

남자 - 초코 간의 기대값

  • 남자 행 합 = 60
  • 초코 열 합 = 40
  • 전체 = 120
E=60×40120=2400120=20E = \frac{60\times40}{120} = \frac{2400}{120} = 20

즉. 만약 진짜로 성별과 선호가 상관 없었다면 남자-초코는 20명이 나와야 정상인데, 실제로는 30명이 나옴.

이걸 모든 칸에 대해 계산해서 O, E를 얻는다.

각 셀마다

(OE)2E\frac{(O-E)^2}{E}

를 구해서 전부 더하면 그게 X^2의 통계량이다.

→ X^2의 값이 클수록 H0(귀무가설)을 기각할 가능성이 높아진다.

자유도

독립성 검정에서 자유도는

df=(행개수1)×(열개수1)df = (행개수 - 1)\times(열개수-1)

df와 χ² 값을 가지고 χ² 분포표로 p-value를 구해서 p < 0.05면

→ 성별과 과자 선호도는 통계적으로 유의하게 관련이 있다고 해석할 수 있음.

특징

  • X^2값은 0 이상이다.
  • 값이 클수록 “귀무가설 하에서 나올 확률이 적은 케이스”
  • X^2분포는 오른쪽으로 긴 꼬리를 가진 분포이다.(오른쪽 꼬리 검정이라고도 한다.)
  • p-value는 귀무가설이 맞을 때, 계산한 X^2값 이상이 나올 확률이다.

카이제곱 검정 사용 시 주의 사항

  1. 데이터는 “빈도”여야함
    • 평균 값 등 수치값을 넣으면 안됨
  2. 기대빈도 조건
    • 모든 셀의 기대 빈도 ≥ 5 (일반적으로)
    • 너무 작은 빈도면 Fisher의 정확검정 고려
  3. 표본이 충분히 커야함
    • 작은 표본이면 왜곡 발생
  4. 연속 데이터는 직접 x
    • 필요하면 범주화(예 : 나이 → 20대/30대/40대) 필요
  5. 두 범주형 변수 사이에 통계적으로 유의한 관련이 있는가 ? 에 대해서만 알 수 있음
  6. 얼마나 관련이 있는지, 얼마나 차이가 있는지에 대해서는 알 수 없다.

T-test와의 차이

항목t-test카이제곱 검정
데이터 타입연속형(숫자, 평균)범주형(카테고리, 빈도)
질문평균의 차이?비율/분포의 차이?
예시남/녀 평균 키 차이남/녀 흡연 비율 차이
검정통계량tχ²
분포t분포카이제곱 분포
profile
취준하는 데이터 분석가의 정리노트📘

0개의 댓글