Hosmer-Lemeshow test

율·2025년 3월 31일

H-L 검정이 하는 일 요약

Hosmer–Lemeshow 검정은:

“로지스틱 회귀 모델이 예측한 확률과 실제 관측된 결과가 얼마나 잘 맞는지”를 평가하는 적합도 검정.

방법 요약:

예측된 확률 $\hat{\pi}_i$ 를 기준으로 관측치들을 정렬
$\hat{\pi}_i$ 에 따라 10개의 그룹(deciles)으로 나눔 (각 그룹에 약 $n/10$ 개 관측치)
각 그룹에서:
- 관측값: 실제 $y = 1$ 의 수, $y = 0$ 의 수
- 예측값: 각 $\hat{\pi}_i$ 를 합해서 $y = 1$ 의 기대값, $(1 - \hat{\pi}_i)$ 를 합해서 $y = 0$ 의 기대값
이걸로 Pearson 카이제곱 통계량 계산:

X^2 = \sum_{g=1}^{G} \sum_{j=0}^1 \frac{(O_{gj} - E_{gj})^2}{E_{gj}}

$g$ : 그룹 번호 (총 $G = 10$ 개)
$j$ : 결과값 (0 또는 1)
$O_{gj}$ : $g$ 번 그룹에서 실제로 $y = j$ 인 관측값 수
$E_{gj}$ : 해당 그룹에서 $y = j$ 의 예측합

카이제곱 분포에 근사하는가?

unique한 설명변수 조합의 수가 샘플의 크기와 유사하다면 df = 그룹의 수 - 2 인 카이제곱 분포에 근사한다.

왜일까?

베르누이 분포들의 합은 이항분포를 따르고, 이항분포는 충분히 크면 정규분포로 근사된다.
표준화된 이들의 제곱합은 카이제곱 분포로 근사된다.

통계적 논리

그룹 안에서의 합: 이항 근사

각 관측치는 베르누이 분포 $Y_i \sim \text{Bernoulli}(\hat{\pi}_i)$
같은 그룹 안의 관측치들을 더하면: $\sum_{i \in \text{group } g} Y_i \sim \text{Poisson-Binomial}$ poisson-binomial은 각 시행마다 성공 확률이 다를 수 있는 경우의 분포
하지만 각 $\hat{\pi}_i$ 가 너무 다르지 않다면 →
이 합은 대략적인 이항 분포 $\text{Binomial}(n_g, \bar{\pi}_g)$ 로 근사 가능

이항 분포의 정규 근사

이항분포 $\text{Binomial}(n, \pi)$ 는 $n$ 이 크면 정규분포로 근사된다: $\frac{O - E}{\sqrt{E(1 - \pi)}} \approx \mathcal{N}(0,1)$
→ 그걸 제곱해서 더하면 카이제곱 분포로 근사 가능: $\sum \frac{(O - E)^2}{E} \sim \chi^2$

그룹화된 데이터에서 Pearson 통계량

각 그룹의 이항분포(또는 이와 유사한 분포)의 Pearson 통계량을 더함 →
→ 전체가 대략적인 카이제곱 분포로 근사

왜 “distinct patterns ≈ sample size”여야 하나?

설명변수 조합이 다양할 때:
각 관측치의 $\hat{\pi}_i$ 가 다양해지면, 오름차순 정렬 후 decile grouping을 할 때 각 그룹 내의 $\hat{\pi}_i$ 값들이 서로 비슷해질 가능성이 커짐. 그러면 그룹 내에서 베르누이 시행의 합이 대략적으로 동일 성공 확률을 갖는 이항분포로 근사할 수 있고, 이 이항분포는 표본 크기가 충분할 경우 정규분포로 근사가 가능하며, 그 결과 Pearson 통계량이 카이제곱 분포에 근사하게 됨.
설명변수 조합이 적을 때:
반대로, $\hat{\pi}_i$ 값들이 몇 개의 고정된 값으로 뭉친다면 그룹화가 덜 정교해져, 그룹 내 분산이 커지고 정규 근사 및 카이제곱 근사의 조건이 약해짐.

따라서 "설명변수 패턴 수 $\approx$ 표본 수일 때 $\chi^2$ 근사가 잘 된다"는 결론은, 개별 $\hat{\pi}_i$ 값들이 충분히 다양해 decile grouping이 효과적으로 작동하여 각 그룹 내에서 기대값 계산이 정확해지고, 그 결과 전체 Pearson 통계량이 카이제곱 분포에 근사한다는 점에서 타당함.

요약

항목	설명
왜 그룹화?	유사한 확률을 가진 관측치를 묶어서 안정된 통계량 계산
어떻게 근사?	베르누이들의 합 → 이항 근사 → 정규 근사 → Pearson χ²
언제 적절한가?	그룹별 기대값이 충분히 크고, covariate 패턴 수가 적절할 때
df는 왜 G - 2?	그룹 수(G)에서 2개 파라미터(절편 + 기울기)를 빼서 자유도 추정

율

보건대학원 뉴비

이전 포스트

다변수 확률 변수에서의 변수 변환과 야코비안 행렬

다음 포스트