Pearson Residual 과 Standardized Residual

율·2025년 3월 30일

간단 정의

Pearson 잔차:
관측치 $i$ 에 대한 Pearson 잔차는 다음과 같이 정의됩니다.

r_i = \frac{y_i - \hat{\mu}_i}{\sqrt{\hat{V}(\hat{\mu}_i)}},

여기서 $y_i$ 는 관측값, $\hat{\mu}_i$ 는 모형이 예측한 평균, 그리고 $\hat{V}(\hat{\mu}_i)$ 는 해당 관측치의 추정 분산입니다. 이 잔차는 관측값과 예측값의 차이를 추정된 표준편차로 나누어 표준화한 값입니다.

표준화 잔차 (Standardized residual):
표준화 잔차는 Pearson 잔차를 각 관측치의 레버리지(영향력)를 보정하여 계산합니다. 이는 다음과 같이 정의됩니다.

r_i^* = \frac{r_i}{\sqrt{1-h_i}},

여기서 $h_i$ 는 $i$ 번째 관측치에 해당하는 hat matrix의 대각 성분(영향력, 레버리지)입니다. 이 보정을 통해, 모형이 올바르게 적합된 경우 표준화 잔차는 $N(0,1)$ 분포에 가까워지며, 이상치를 식별하기 용이해집니다.

이게 무슨 말이냐구요?

설명

극단적인 설명 변수 값을 가진 관측치는 일반적으로 높은 레버리지(영향력, $h_i$ )를 가지게 됩니다. 극단적인 설명 변수 값을 가진 데이터가 상대적으로 적기 때문에, 모델을 피팅할 때 설명 변수의 극단적인 값 근처에서는 적은 수의 각각의 데이터가 큰 영향력을 주게 되는 것이죠.

다시 말해 높은 레버리지 관측치는 주변에 다른 관측치가 적기 때문에, 모형 적합 시 과도하게 영향을 미치고, 모형이 해당 점을 과적합(overfit)하는 경향이 있어, 잔차(즉, $y_i - \hat{\mu}_i$ )가 작게 나타날 수 있습니다.

그러나 이런 극단 영역에서는 데이터가 희소하므로, 본래 예측의 불확실성(variance)은 더 클 가능성이 있습니다.

이를 보정하기 위해, 표준화 잔차는 레버리지 보정 인자인 $\sqrt{1-h_i}$ 로 나눕니다. 즉,

r_i^* = \frac{r_i}{\sqrt{1-h_i}}.

위 식을 보면 영향력 $h_i$ 가 클수록 분모가 작아져 표준화 잔차 값이 커집니다.

이 보정을 통해, 만약 모형이 올바르게 적합되었다면 모든 관측치에 대해 표준화 잔차 $r_i^*$ 가 $N(0,1)$ 분포에 가까워지도록 조정됩니다.

여기서 잔차의 분포가 $N(0,1)$ 에 가까워진다는 것, 그 중에서도 "분산이 1"로 조정된다는 것은, 단순히 각 관측치의 잔차가 동일한 기준으로 비교될 수 있게 만들어 준다는 의미입니다.

실제 데이터의 불확실성(예측 분산)은 극단적인 영역에서 더 클 수 있지만, 해당 영역에서는 관측치 수가 적어 모델이 과적합(overfitting)되기 쉽고, 이로 인해 분산이 실제보다 작게 추정될 수 있습니다. 표준화 잔차는 이러한 레버리지 효과를 보정함으로써, 서로 다른 관측치의 잔차를 공정한 척도에서 비교할 수 있도록 도와줍니다.

즉, 표준화 잔차의 목표는 모형이 잘 적합된 경우 $r_i^*$ 가 표준 정규분포를 따르도록 만들어, 이상치(outlier)나 모형 부적합 문제를 식별하기 쉽게 하는 것입니다.

다시 정리하면, 이는 극단적인 설명 변수 값에서의 실제 불확실성이 1이라는 뜻이 아니라, 모든 관측치를 비교 가능한 기준으로 맞추기 위한 보정이라고 이해하면 됩니다.

율

보건대학원 뉴비

이전 포스트

로그우도비와 카이제곱 분포

다음 포스트

Pearson Residual 과 Standardized Residual

간단 정의

설명

로그우도비와 카이제곱 분포

Newton-Raphson Algorithm과 가중최소제곱합법

0개의 댓글