Introduction
반응 변수 (response variable, 종속 변수) y는 설명 변수 (predictor variables, 독립 변수) x1,x2,⋯,xp의 함수로 모형화, 모델링한다. 다중 선형회귀 모델은 다음과 같이 표현된다.
yi=β0+β1x1i+⋯+βpxpi+εi,i=1,2,⋯,n.
이때, 관츨할 수 없는 오차항 εi는 N(0,σ2)인 정규분포를 따른다고 가정한다.
- 오차항 ε의 제곱의 합 Q는 다음과 같이 표현할 수 있다.
Q=i=1∑Nεi2=i=1∑N(yi−(β0+β1x1i+⋯+βpxpi))2
- 독립 변수와 종속 변수의 관계를 잘 설명하기 위해서는 Q 값을 최소화해야 한다. 관측값과 모델이 예측한 값의 차이(잔차) 제곱합을 가장 작게 만드는 파라미터를 선택하여, 그 파라미터로 모형을 추정하는 방법을 최소제곱추정(Least Square Estimation)이라고 한다. p+1개의 정규 방정식을 풀어야 한다.
∂β0∂Q=−i=1∑n2εi=0 ∂βj∂Q=−i=1∑n2xjiεi=0,for j=1,2,…,p.
Matrix Notation of Multiple Linear Regression
데이터 포인트(관측치)가 아래와 같다고 할 때, 행렬로 표기할 수 있다.
y1=β0+β1x11+⋯+βpxp1+ε1y2=β0+β1x12+⋯+βpxp2+ε2yn=β0+β1x1n+⋯+βpxpn+εn
y=⎣⎢⎢⎢⎢⎢⎢⎡y1y2y3⋮yn⎦⎥⎥⎥⎥⎥⎥⎤,X=⎣⎢⎢⎢⎢⎢⎢⎡111⋮1x11x12x13x1nx21x22x23x2n⋯⋯⋯⋱⋯xp1xp2xp3xpn⎦⎥⎥⎥⎥⎥⎥⎤,β=⎣⎢⎢⎢⎢⎢⎢⎡β0β1β2⋮βp⎦⎥⎥⎥⎥⎥⎥⎤,ε=⎣⎢⎢⎢⎢⎢⎢⎡ε1ε2ε3⋮εn⎦⎥⎥⎥⎥⎥⎥⎤
ε이 정규분포 N(0,σ2In)을 따를 때 다음과 같이 표현할 수 있다.
y=Xβ+ϵ
- β의 최소제곱 추정값이 β^일 때 y^=Xβ^이다.
- 행렬 표기에 따라 오차항의 제곱합은 Q=∑(yi−xiTβ)2으로 나타낼 수 있으며 xiT=(1,x1i,x2i,…,xpi)이다.
- Q=(y−Xβ)T(y−Xβ)=yTy−2βTXTy+βTXTXβ
- Q를 미분하면 β의 최소제곱 추정치가 유도된다.
β^=(XTX)−1XTy
The statistical properties of LSE
앞서 유도된 β의 최소제곱추정치에서 y에 Xβ+ϵ을 대입하면 아래 식이 유도된다.
β^=β+(XTX)−1XTϵ
이때 ϵ은 정규분포를 따르므로 다음이 성립한다.
- E[β^]=β+E[(XTX)−1XTϵ]=β
- Var(β^)=(XTX)−1XTVar(ϵ)((XTX)−1XT)T=σ2(XTX)−1
- β^의 분산은 모델의 독립 변수 X에 의해 결정되며, y와는 무관하다.
- β^∼N(β,σ2(XTX)−1)
Deriving parameters for Simple Linear Regression
yi=β0+β1xi+εi인 단순한 선형회귀 문제에서 다음을 가정하고 β^0,β^1을 유도한다.
β^=(β^0β^1),XT=(1x11x2⋯⋯1xn,),y=(y1y2⋯yn)
- XTy=(∑yi∑xiyi)
- β^1=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ), 즉 x,y의 공분산을 x의 분산으로 나눈 것
- β^0=yˉ−β^1xˉ
Variance of the Residual
y^=X(XTX)−1XTy=HY로 표현해보자.
이때, H는 hat matrix이다.
잔차 행렬 e=y−y^로 표현했을 때 e=(I−H)y이다. H와 1−H는 대칭이며 H2=H인 idempotent matrix이다.
이를 활용하여 잔차 행렬의 분산을 구할 수 있다.
Var(e)=Var((I−H)−y)=σ2(I−H)
또한 잔차제곱합의 기댓값 E(eTe)는 다음과 같이 계산된다.
σ^2=n−2eTe=MSE
- 단순선형회귀 모델에서는 기울기 하나 (p=1), 절편 하나까지 포함하여 모수가 2개이므로 자유도는 n−2이다.
- idempotent 성질 덕분에 식이 단순해지고 자유도 n−2가 자연스럽게 도출된다.
Fitted Values and Residuals
Y^=⎣⎢⎢⎢⎢⎡Y^1Y^2⋮Y^n⎦⎥⎥⎥⎥⎤,e=⎣⎢⎢⎢⎢⎡Y1−Y^1Y2−Y^2⋮Yn−Y^n⎦⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎡e1e2⋮en⎦⎥⎥⎥⎥⎤
선형회귀 모델은 다음과 같이 표현된다.
Y^=Xβ^=HY,e=(I−H)Y
Var(e)=σ2⋅(I−H),Var(e)^=MSE⋅(I−H)
Analysis of Variance Results
- Sum of Squares Total: 관측값에서 관측값의 평균을 뺀 것
- ∑(yi−yˉ)2
- Sum of Squares Error: 잔차 제곱합
- ∑(yi−y^i)2
- Sum of Squares due to Regression: 예측값에서 관측값의 평균을 뺀 것
- ∑(y^i−yˉ)2
- Analysis of Variance(ANOVA) Table
-
| Source | SS | Degree of Freedom | Mean Square |
|---|
| Regression | SSR | p | MSR=pSSR |
| Error | SSE | n−p−1 | MSE=n−p−1SSE |
| Total | SST | n−1 | |