“로지스틱 회귀 모델이 예측한 확률과 실제 관측된 결과가 얼마나 잘 맞는지”를 평가하는 적합도 검정.
방법 요약:
예측된 확률 π^i를 기준으로 관측치들을 정렬
π^i에 따라 10개의 그룹(deciles)으로 나눔 (각 그룹에 약 n/10개 관측치)
각 그룹에서:
관측값: 실제 y=1의 수, y=0의 수
예측값: 각 π^i를 합해서 y=1의 기대값, (1−π^i)를 합해서 y=0의 기대값
이걸로 Pearson 카이제곱 통계량 계산:
X2=g=1∑Gj=0∑1Egj(Ogj−Egj)2
g: 그룹 번호 (총 G=10개)
j: 결과값 (0 또는 1)
Ogj: g번 그룹에서 실제로 y=j인 관측값 수
Egj: 해당 그룹에서 y=j의 예측합
카이제곱 분포에 근사하는가?
unique한 설명변수 조합의 수가 샘플의 크기와 유사하다면 df = 그룹의 수 - 2 인 카이제곱 분포에 근사한다.
왜일까?
베르누이 분포들의 합은 이항분포를 따르고, 이항분포는 충분히 크면 정규분포로 근사된다.
표준화된 이들의 제곱합은 카이제곱 분포로 근사된다.
통계적 논리
그룹 안에서의 합: 이항 근사
각 관측치는 베르누이 분포 Yi∼Bernoulli(π^i)
같은 그룹 안의 관측치들을 더하면:
i∈group g∑Yi∼Poisson-Binomial
poisson-binomial은 각 시행마다 성공 확률이 다를 수 있는 경우의 분포
하지만 각 π^i가 너무 다르지 않다면 →
이 합은 대략적인 이항 분포 Binomial(ng,πˉg)로 근사 가능
이항 분포의 정규 근사
이항분포 Binomial(n,π)는 n이 크면 정규분포로 근사된다:
E(1−π)O−E≈N(0,1)
→ 그걸 제곱해서 더하면 카이제곱 분포로 근사 가능:
∑E(O−E)2∼χ2
그룹화된 데이터에서 Pearson 통계량
각 그룹의 이항분포(또는 이와 유사한 분포)의 Pearson 통계량을 더함 →
→ 전체가 대략적인 카이제곱 분포로 근사
왜 “distinct patterns ≈ sample size”여야 하나?
설명변수 조합이 다양할 때:
각 관측치의 π^i가 다양해지면, 오름차순 정렬 후 decile grouping을 할 때 각 그룹 내의 π^i 값들이 서로 비슷해질 가능성이 커짐. 그러면 그룹 내에서 베르누이 시행의 합이 대략적으로 동일 성공 확률을 갖는 이항분포로 근사할 수 있고, 이 이항분포는 표본 크기가 충분할 경우 정규분포로 근사가 가능하며, 그 결과 Pearson 통계량이 카이제곱 분포에 근사하게 됨.
설명변수 조합이 적을 때:
반대로, π^i 값들이 몇 개의 고정된 값으로 뭉친다면 그룹화가 덜 정교해져, 그룹 내 분산이 커지고 정규 근사 및 카이제곱 근사의 조건이 약해짐.
따라서 "설명변수 패턴 수 ≈ 표본 수일 때 χ2 근사가 잘 된다"는 결론은, 개별 π^i 값들이 충분히 다양해 decile grouping이 효과적으로 작동하여 각 그룹 내에서 기대값 계산이 정확해지고, 그 결과 전체 Pearson 통계량이 카이제곱 분포에 근사한다는 점에서 타당함.