카이제곱 검정

김하경·2025년 10월 18일

통계

목록 보기

13/13

“두 범주형 변수 간의 실제 분포(관찰값)”가
“두 변수가 독립이라면 예상되는 분포(기대값)”와
얼마나 다른가(차이의 크기) 를 검정하는 통계적 방법이다.

✅ 핵심 개념 정리

기대값 분포: “두 변수에 아무 관계가 없다면 이런 분포일 거야.”
관찰값 분포: “하지만 실제 데이터를 봤더니 이런 식으로 나왔어.”

👉 이 두 분포가 비슷하면 → 독립(관련 없음)
👉 이 두 분포가 많이 다르면 → 독립 아님(관련 있음)

즉, 카이제곱 검정은

“현실이 이론(독립 가정)과 얼마나 다른가?”
를 수치로 계산하는 테스트

두 범주형 변수(예: purpose × loan_status)가 교차했을 때
각 조합에 해당하는 관측된 개수(빈도) 를 말해요.

✅ 각 셀의 “관찰값”은 실제 데이터에서의 빈도이고,
✅ “기대값”은 두 변수가 독립이라고 가정했을 때 나와야 하는 이론적 빈도다.
둘의 차이가 클수록, 두 변수는 독립이 아닐 가능성

범주형 변수들끼리 교차해서 일어난 관측 값
실제 관측된 값분포(관찰빈도와 기대한 값(기대빈도들의 분포 차이

표준화 잔차로 관측된값과 기대한 값의 차이를 알 수있다. 이 값이 신뢰구간안에 있으면 차이가 없는 거고 신뢰구간 바깥에 있으면 차이가 있는 거다.

“카이제곱 검정이 ‘관련 있다’고 알려주면,
표준화 잔차는 ‘어디서 관련이 생겼는지’ 알려준다.”

✅ 한 문장으로 정리하자면

“표준화 잔차를 본다는 건,
실제 데이터가 ‘독립이라면 나와야 하는 기대값’에서
유의미하게 벗어났는지를 신뢰구간(±2 기준) 으로 확인하는 것이다.”

X2의 의미
관측 빈도와 기대 빈도의 차이: 카이제곱 통계량은 표본에서 실제로 관찰된 값(관측 빈도)이, 귀무가설(null hypothesis)이 참일 경우 이론적으로 기대되는 값(기대 빈도)과 얼마나 다른지를 측정

범주 조합	O	E	표준화 잔차	해석
RENT–Charged Off	400	280	+7.2	기대보다 훨씬 많음 (부도율 높음)
OWN–Charged Off	100	280	−10.7	기대보다 훨씬 적음 (부도율 낮음)
MORTGAGE–Charged Off	500	440	+2.8	약간 많음 (경계선)