일반화 회귀분석

choyunjeong·2025년 1월 5일

10.1 일반화 최소제곱추정

이제까지 다루어 온 선형회귀모형은

y=Xβ+ϵ,ϵN(0,Iσ2)y=X\beta+\epsilon,\quad\epsilon\sim N(0,I\sigma^2)

와 같이 표현되었고, Var(ϵ)=Iσ2\text{Var}(\epsilon)=I\sigma^2으로 오차들은 각각 동일한 분산을 갖고 오차들끼리는 서로 독립이었다고 가정하였다. 그러나 실제의 문제를 다루는데 있어서 이와 같은 오차의 가정이 옳지 않을 때가 많이 있으며, 다음과 같은 선형회귀모형을 같는 경우가 있다.

y=Xβ+ϵ,ϵN(0,Vσ2)y=X\beta+\epsilon,\quad\epsilon\sim N(0,V\sigma^2)

이와 같은 모형을 일반화선형회귀모형이라고 부르며 이 경우에는 최소제곱법추정량 bbβ\beta의 최량선형불편추정량 (BLUE)이 되지 못한다.

yi=βxi+ϵi, i=1,2,,ny_i=\beta x_i + \epsilon_i, \quad \ i=1,2,\ldots,n

일반화선형회귀모형의 오차벡터 ϵT=(ϵ1,,ϵn)\epsilon^T=(\epsilon_1,\ldots,\epsilon_n)의 기댓값 E(ϵ)=0nE(\epsilon)=0_n이고, 분산-공분산 행렬이

Var(ϵ)=[σ12000σ22000σn2]E(ϵ)=0n, Var(ϵ)=σi2=σ2wi=Vσ2\text{Var}(\epsilon)= \begin{bmatrix} \sigma_1^2 & 0 & \ldots & 0 \\ 0 & \sigma_2^2 & \ldots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 &\ldots & \sigma_n^2 \\ \end{bmatrix} \\[20pt] \quad E(\epsilon)=0_n,\ \text{Var}(\epsilon)=\sigma_i^2=\dfrac{\sigma^2}{w_i}=V\sigma^2

이분산성이면서 독립인 경우는 가중치를 줘 등분산성으로 변환해줘야한다. 양변에 K1K^{-1}을 곱하면 분산이 등분산성, 독립을 만족하게 된다. (이 때 KK는 다음과 같다.)

K=[1/w10001/w20001/wn]K1=[w1000w2000wn]K= \begin{bmatrix} 1/\sqrt{w_1} & 0 & \ldots & 0 \\ 0 & 1/\sqrt{w_2} & \ldots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 &\ldots & 1/\sqrt{w_n} \\ \end{bmatrix} \quad K^{-1}=\begin{bmatrix} \sqrt{w_1} & 0 & \ldots & 0 \\ 0 & \sqrt{w_2} & \ldots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 &\ldots & \sqrt{w_n} \\ \end{bmatrix}

\\[20pt]

K1y=K1Xβ+K1ϵK^{-1}y=K^{-1}X\beta+K^{-1}\epsilon의 회귀식의 Var(K1ϵ)\text{Var}(K^{-1}\epsilon)

Var(K1ϵ)=K1Var(ϵ)K1=K1Vσ2K1=Inσ2( V=KK)\begin{aligned} \text{Var}(K^{-1}\epsilon) &= K^{-1}\cdot \text{Var}(\epsilon)\cdot K^{-1'}\\[10pt] &= K^{-1}\cdot V\sigma^2\cdot K^{-1'}\\[10pt] &= I_n\sigma^2\quad (\because\ V=KK)\\[10pt] \end{aligned}

등분산성을 만족하여

y=Xβ+ϵ,(y=k1y, X=k1X)y^* = X^* \beta^* + \epsilon^*, \quad (y^* =k^{-1}y,\ X^*=k^{-1}X) \\[15pt]

으로 변환하면 β\beta를 추정하는데 최소제곱추정량을 사용할 수 있다. 기존 추정값 bb와 구별하기 위해 bb^*라 표기하며 이 추정값을 GLS라고 부른다. 오차항의 가정을 만족하는 기존 추정값 bbOLSOLS라고 하며 이렇게 구한 추정값은 다음과 같았으며

b=(XX)1Xyb=(X'X)^{-1}X'y

이 추정값에 변환된 값을 넣으면 bb^*의 추정값이 된다.

β=(XX)1Xy=(Xk1k1X)Xk1k1y=(XV1X)XV1y\begin{aligned} \beta^* &= (X^{*'} X^*)^{-1}X'^*y^* \\[10pt] &= (X'k^{-1}k^{-1}X)X'k^{-1}k^{-1}y \\[10pt] &= (X'V^{-1}X)X'V^{-1}y \end{aligned}

bb^*의 기댓값과 분산은 다음과 같다.

  • 기댓값
E(b)=(XV1X)XV1E(y)=(XV1X)XV1Xβ=β\begin{aligned} E(b^*) &= (X'V^{-1}X)X'V^{-1}E(y)\\[10pt] &= (X'V^{-1}X)X'V^{-1}X\beta \\[10pt] &=\beta \end{aligned}

이므로 β\beta^*β\beta의 불편추정량이다.

  • 분산
Var(b)=((XV1X)1XV1Vσ2V1X(XV1X)1)=(XVX)1σ2\begin{aligned} \text{Var}(b^*)&=((X'V^{-1}X)^{-1}X'V^{-1}V\sigma^2V^{-1}X(X'V^{-1}X)^{-1}) \\[10pt] &=(X'VX)^{-1}\sigma^2 \end{aligned}

[참고문헌]

  • 회귀분석 제 3판 - 박성현

0개의 댓글