“두 범주형 변수 간의 실제 분포(관찰값)”가
“두 변수가 독립이라면 예상되는 분포(기대값)”와
얼마나 다른가(차이의 크기) 를 검정하는 통계적 방법이다.
✅ 핵심 개념 정리
기대값 분포: “두 변수에 아무 관계가 없다면 이런 분포일 거야.”
관찰값 분포: “하지만 실제 데이터를 봤더니 이런 식으로 나왔어.”
👉 이 두 분포가 비슷하면 → 독립(관련 없음)
👉 이 두 분포가 많이 다르면 → 독립 아님(관련 있음)
즉, 카이제곱 검정은
“현실이 이론(독립 가정)과 얼마나 다른가?”
를 수치로 계산하는 테스트
두 범주형 변수(예: purpose × loan_status)가 교차했을 때
각 조합에 해당하는 관측된 개수(빈도) 를 말해요.
✅ 각 셀의 “관찰값”은 실제 데이터에서의 빈도이고,
✅ “기대값”은 두 변수가 독립이라고 가정했을 때 나와야 하는 이론적 빈도다.
둘의 차이가 클수록, 두 변수는 독립이 아닐 가능성
범주형 변수들끼리 교차해서 일어난 관측 값
실제 관측된 값분포(관찰빈도와 기대한 값(기대빈도들의 분포 차이
표준화 잔차로 관측된값과 기대한 값의 차이를 알 수있다. 이 값이 신뢰구간안에 있으면 차이가 없는 거고 신뢰구간 바깥에 있으면 차이가 있는 거다.
“카이제곱 검정이 ‘관련 있다’고 알려주면,
표준화 잔차는 ‘어디서 관련이 생겼는지’ 알려준다.”
✅ 한 문장으로 정리하자면
“표준화 잔차를 본다는 건,
실제 데이터가 ‘독립이라면 나와야 하는 기대값’에서
유의미하게 벗어났는지를 신뢰구간(±2 기준) 으로 확인하는 것이다.”
X2의 의미
관측 빈도와 기대 빈도의 차이: 카이제곱 통계량은 표본에서 실제로 관찰된 값(관측 빈도)이, 귀무가설(null hypothesis)이 참일 경우 이론적으로 기대되는 값(기대 빈도)과 얼마나 다른지를 측정
| 범주 조합 | O | E | 표준화 잔차 | 해석 |
|---|---|---|---|---|
| RENT–Charged Off | 400 | 280 | +7.2 | 기대보다 훨씬 많음 (부도율 높음) |
| OWN–Charged Off | 100 | 280 | −10.7 | 기대보다 훨씬 적음 (부도율 낮음) |
| MORTGAGE–Charged Off | 500 | 440 | +2.8 | 약간 많음 (경계선) |