카이제곱 검정(Chi-Squared Test)

Minjung·2025년 11월 20일

chi-squared 데이터 분석 카이제곱 검정 통계

데이터 분석(Data Analysis)

목록 보기

11/12

카이제곱 검정이란?

💡

두 범주형 변수에 대한 분석 방법. “기대되는 분포와 실제 관측된 분포가 유의미하게 다른가?” 를 판단하는 통계적 검정 방법

쉽게 말하자면, 관측된 값들이 “우연”인지, 아니면 실제로 차이가 있는것인지를 확인하는 방법이다. T-test가 평균 비교용이라면, 카이제곱 검정은 비율/분할표(빈도표) 비교용이다.

종류

적합도 검정
- 단일 범주형 변수
- 예를 들어, 주사위를 60번 던졌을 때 1~6이 균등하게 나오는지 확인하고 싶다면?
  - 기대빈도 : 60/6 = 10
  - 관측빈도 : 실제 나온 횟수
  - 기대 vs 관측 차이가 큰지 X^2 통계량으로 검정
- 사용 상황
  - 제품 불량 유형 비율이 기존과 같은가?
  - 고객 지역 분포가 예상과 같은가?
독립성 검정
- 두 범주형 변수 간의 독립성/관련성
- 예를 들어, 성별(남/여)와 구매여부(구매/미구매)가 관련이 있는가?
  - 성별이 바뀌어도 구매율이 동일하다면 = 독립
  - 성별이 바뀌었을 때 구매율이 동일하다면 = 독립 x
- 사용 상황
  - 마케팅 : 특정 연령대와 상품 선호가 관련이 있나?
  - 설문조사 : 정책 찬반이 이 지역과 관련이 있나?
동질성 검정
- 여러 집단 간 같은 분포를 가지는지
- 예를 들어, A,B,C 세개의 병원이 있다. 이때 치료 성공/실패 비율이 병원마다 같은가?
- 동질성 검정과 독립성 검정의 수식/절차는 거의 똑같고 해석만 살짝 다르다.

기본 공식

\chi^2 = \sum \frac{(O - E)^2}{E}

관측값(O) : 실제 데이터에서 나온 빈도
기대값(E) : 귀무가설이 맞다면 이렇게 나와야 한다고 이론적으로 예상되는 값
관측값과 기댓값이 비슷하면 X^2가 작다 → p값이 크다 → 우연일 수 있음
관측값과 기댓값의 차이가 크면 X^2가 커진다 → p값이 작다 → 우연이라 볼 수 없다 → 유의한 차이

독립성 검정 예시

“성별과 과자 선호가 관련 있는가?”

	초코	감자칩	쿠키	합계
남자	30	20	10	60
여자	10	30	20	60
합계	40	50	30	120

독립성 검정이므로

가설 H0 = “성별과 과자 선호는 독립이다.” (귀무가설)

기댓값 계산 :

E_ij =\frac{(해당 행 합)\times(해당 열 합)}{전체 합}

이므로

남자 - 초코 간의 기대값

남자 행 합 = 60
초코 열 합 = 40
전체 = 120

E = \frac{60\times40}{120} = \frac{2400}{120} = 20

즉. 만약 진짜로 성별과 선호가 상관 없었다면 남자-초코는 20명이 나와야 정상인데, 실제로는 30명이 나옴.

이걸 모든 칸에 대해 계산해서 O, E를 얻는다.

각 셀마다

\frac{(O-E)^2}{E}

를 구해서 전부 더하면 그게 X^2의 통계량이다.

→ X^2의 값이 클수록 H0(귀무가설)을 기각할 가능성이 높아진다.

자유도

독립성 검정에서 자유도는

df = (행개수 - 1)\times(열개수-1)

df와 χ² 값을 가지고 χ² 분포표로 p-value를 구해서 p < 0.05면

→ 성별과 과자 선호도는 통계적으로 유의하게 관련이 있다고 해석할 수 있음.

특징

X^2값은 0 이상이다.
값이 클수록 “귀무가설 하에서 나올 확률이 적은 케이스”
X^2분포는 오른쪽으로 긴 꼬리를 가진 분포이다.(오른쪽 꼬리 검정이라고도 한다.)
p-value는 귀무가설이 맞을 때, 계산한 X^2값 이상이 나올 확률이다.

카이제곱 검정 사용 시 주의 사항

데이터는 “빈도”여야함
- 평균 값 등 수치값을 넣으면 안됨
기대빈도 조건
- 모든 셀의 기대 빈도 ≥ 5 (일반적으로)
- 너무 작은 빈도면 Fisher의 정확검정 고려
표본이 충분히 커야함
- 작은 표본이면 왜곡 발생
연속 데이터는 직접 x
- 필요하면 범주화(예 : 나이 → 20대/30대/40대) 필요
두 범주형 변수 사이에 통계적으로 유의한 관련이 있는가 ? 에 대해서만 알 수 있음
얼마나 관련이 있는지, 얼마나 차이가 있는지에 대해서는 알 수 없다.

T-test와의 차이

항목	t-test	카이제곱 검정
데이터 타입	연속형(숫자, 평균)	범주형(카테고리, 빈도)
질문	평균의 차이?	비율/분포의 차이?
예시	남/녀 평균 키 차이	남/녀 흡연 비율 차이
검정통계량	t	χ²
분포	t분포	카이제곱 분포

Minjung

취준하는 데이터 분석가의 정리노트📘

이전 포스트

T-Test

다음 포스트