10.1 일반화 최소제곱추정
이제까지 다루어 온 선형회귀모형은
y=Xβ+ϵ,ϵ∼N(0,Iσ2)
와 같이 표현되었고, Var(ϵ)=Iσ2으로 오차들은 각각 동일한 분산을 갖고 오차들끼리는 서로 독립이었다고 가정하였다. 그러나 실제의 문제를 다루는데 있어서 이와 같은 오차의 가정이 옳지 않을 때가 많이 있으며, 다음과 같은 선형회귀모형을 같는 경우가 있다.
y=Xβ+ϵ,ϵ∼N(0,Vσ2)
이와 같은 모형을 일반화선형회귀모형이라고 부르며 이 경우에는 최소제곱법추정량 b는 β의 최량선형불편추정량 (BLUE)이 되지 못한다.
yi=βxi+ϵi, i=1,2,…,n
일반화선형회귀모형의 오차벡터 ϵT=(ϵ1,…,ϵn)의 기댓값 E(ϵ)=0n이고, 분산-공분산 행렬이
Var(ϵ)=⎣⎢⎢⎢⎢⎡σ120⋮00σ22⋮0……⋮…00⋮σn2⎦⎥⎥⎥⎥⎤E(ϵ)=0n, Var(ϵ)=σi2=wiσ2=Vσ2
이분산성이면서 독립인 경우는 가중치를 줘 등분산성으로 변환해줘야한다. 양변에 K−1을 곱하면 분산이 등분산성, 독립을 만족하게 된다. (이 때 K는 다음과 같다.)
K=⎣⎢⎢⎢⎢⎡1/w10⋮001/w2⋮0……⋮…00⋮1/wn⎦⎥⎥⎥⎥⎤K−1=⎣⎢⎢⎢⎢⎡w10⋮00w2⋮0……⋮…00⋮wn⎦⎥⎥⎥⎥⎤
K−1y=K−1Xβ+K−1ϵ의 회귀식의 Var(K−1ϵ)는
Var(K−1ϵ)=K−1⋅Var(ϵ)⋅K−1′=K−1⋅Vσ2⋅K−1′=Inσ2(∵ V=KK)
등분산성을 만족하여
y∗=X∗β∗+ϵ∗,(y∗=k−1y, X∗=k−1X)
으로 변환하면 β를 추정하는데 최소제곱추정량을 사용할 수 있다. 기존 추정값 b와 구별하기 위해 b∗라 표기하며 이 추정값을 GLS라고 부른다. 오차항의 가정을 만족하는 기존 추정값 b를 OLS라고 하며 이렇게 구한 추정값은 다음과 같았으며
b=(X′X)−1X′y
이 추정값에 변환된 값을 넣으면 b∗의 추정값이 된다.
β∗=(X∗′X∗)−1X′∗y∗=(X′k−1k−1X)X′k−1k−1y=(X′V−1X)X′V−1y
b∗의 기댓값과 분산은 다음과 같다.
E(b∗)=(X′V−1X)X′V−1E(y)=(X′V−1X)X′V−1Xβ=β
이므로 β∗는 β의 불편추정량이다.
Var(b∗)=((X′V−1X)−1X′V−1Vσ2V−1X(X′V−1X)−1)=(X′VX)−1σ2
[참고문헌]