Abstract
회귀모형 적합 과정
-
산점도, 상관관계
-
회귀모형 적합
-
통계적 유의성 검정
- 회귀직선의 유의성 검정 (F 검정)
- 개별회귀 계수 검정 (t 검정)
-
모형 적합도
-
회귀진단
3.1 기본 모형
단순선형회귀모형의 기본 모형은 다음과 같다.
y=β0+β1x+ϵ,ϵ∼(0,σ2)
회귀계수 또는 모수
3.2 기본 가정
-
선형성
-
E(y∣x)=μy,x=β0+β1x
-
∴ y=μy,x+ϵ
-
Var(ϵ)=Var(y−μy,x)=σ2일 때
ϵ∼N(0, σ2)y∼N(μy,x, σ2)∴Var(y)=Var(ϵ)=σ2
-
등분산성
- Var(y∣x)=σ2
-
정규성
- y∣x∼N(E(y∣x),σ2)
-
독립성
- Cov(ϵi, ϵj)=0,i=j
3.3 회귀선의 추정
y=β0+β1x+ϵ을 추정하여 얻은 직선을
y^=b0+b1x
로 표시하며, 이와 같은 직선을 추정된 회귀직선이라 부른다. 여기서 b0, b1, y^는 각각 β0, β1, μy,x의 추정값 (esitmate)이다. b0, b1을 추정하는 방법 중 최소제곱법이 가장 널리 사용된다.
3.3.1 최소제곱법
회귀모형을
yi=β0+β1xi+ϵi
라고 표현할 때 오차제곱들의 합
S=i=1∑nϵ2=i=1∑n(yi−β0−β1xi)2
을 최소로 하는 β0, β1값을 이들의 추정값 b0, b1으로 하는 방법이다. 오차제곱합 S를 최소화시키는 β0, β1을 구하기 위하여 S를 β0, β1으로 각각 편미분하여 다음의 결과를 얻게 된다.
∂β0∂S=−2∑(yi−β0−β1xi)(1)
∂β1∂S=−2∑xi(yi−β0−β1xi)(2)
위 식의 편미분 값을 0으로 만드는 β0, β1을 각각 b0, b1으로 대치하여 정리하면
b0n+b1∑xib0∑xi+b1∑xi2=∑yi=∑xiyi
이 되는데 이 식을 정규방정식이라 한다. 정규방정식을 b0, b1에 대하여 풀면,
0∴ b00∑xi(yi−yˉ)∴ b1=∑(yi−β0−β1xi)=n1∑yi−b1n1∑xi=yˉ−b1xˉ=∑xi(yi−b0−b1xi)=∑xi(yi−yˉ+b1xˉ−b1xi)=b1∑xi(xi−xˉ)=∑xi(xˉ−xi)∑xi(yi−yˉ)=∑(xi−xˉ+xˉ)(xi−xˉ)∑(xi−xˉ+xˉ)(yi−yˉ)=∑(xi−xˉ)2+∑xˉ(xi−xˉ)∑(xi−xˉ)(yi−yˉ)+∑xˉ(yi−yˉ)=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ)=S(xx)S(xy)
표현을 간단히 하기 위하여 다음과 같이 설정
S(xx)S(yy)S(xy)=∑(xi−xˉ)2=∑(yi−yˉ)2=∑(xi−xˉ)(yi−yˉ)
참고로 y=β0+β1x+ϵ을 다음과 같은 대체모형으로 사용하는 경우도 있다.
y=β0′+β1(x−xˉ)+ϵ,(β0′=β0+β1xˉ)
이 대체모형을 최소제곱법을 사용하여 b0′, b1을 구하면
y^b0′b1=b0′+b1(x−xˉ)=yˉ=S(xx)S(xy)
따라서 추정된 회귀선은 다음과 같이 표기된다.
y^=b0+b1xory^−yˉ=b1(x−xˉ)ory^=b0′+b1(x−xˉ)
3.3.2 최대가능도추정법
ϵ∼N(0,σ2)일 때 확률밀도함수는
f(ϵi)=2πσ21exp(−2σ2(ϵi−0)2)
이고 가능도 함수는
L=i=1∏nf(ϵi)lnL=(2πσ2)n/21exp(−2σ2∑ϵi2)=(2πσ2)n/21exp(−2σ2∑(yi−β0−β1xi)2)=ln[(2πσ2)n/21exp(−2σ2∑(yi−β0−β1xi)2)]=−2nln2πσ2−−2σ21∑(yi−β0−β1xi)2
위 식을 각각 β0, β1으로 미분하면
∂β0∂lnL∂β1∂lnL=σ21∑(yi−β0−β1xi)=σ21∑xi(yi−β0−β1xi)
이 되는데 이를 각각 0으로 놓고 β0, β1의 해를 구하는 것은 최소제곱법 풀이와 동일하다. 유의할 사항은 앞에서 다룬 최소제곱법은 ϵ이 정규분포를 한다는 가정이 없을 때에도 적용되는 추정 방법이지만 최대가능도추정법은 ϵ의 분포가 정규분포를 만족하여야한다.
3.4 개별 계수 추정값 확인.
3.4.1 β1 관련
(1) 기댓값과 분산
모집단회귀선의 기울기 β1을 추정하기 위하여 모집단으로부터 하나의 표본을 사용하여 추정한 b1은
b1=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ)
이고 이 기울기는 표본으로부터 얻어진 것이므로 평균과 분산을 가지고 있으며, 평균과 분산을 구해보자.
우선 b1의 분자 식은
∑(xi−xˉ)(yi−yˉ)=∑(xi−xˉ)yi−yˉ∑(xi−xˉ)=∑(xi−xˉ)yi(∵∑(xi−xˉ)=0)
이므로 다음과 같이
b1=∑aiyi,(ai=∑(xi−xˉ)2xi−xˉ)
라고 쓸 수 있고, yi∼N(E(yi),σ2)이므로 b1의 기댓값과 분산은
E(b1)E(b1)=E[∑aiyi]=∑aiE(yi)(∵Linear)=∑∑(xi−xˉ)2xi−xˉ[β0′+β1(xi−xˉ)](∵ β0′=β0+β1xˉ)=β0′∑(xi−xˉ)2∑(xi−xˉ)+β1∑(xi−xˉ)2∑(xi−xˉ)2=β1(∵∑(xi−xˉ)=0)or=E[∑aiyi]=∑aiE(yi)(∵Linear)=∑∑(xi−xˉ)2xi−xˉ⋅(β0+βxi)=∑(xi−xˉ)21{(β0∑(xi−xˉ)+β1∑xi(xi−xˉ))}=∑(xi−xˉ)21{β1∑(xi−xˉ+xˉ)(xi−xˉ)}(∵∑(xi−xˉ)=0)=∑(xi−xˉ)21{β1∑(xi−xˉ)2+∑xˉ(xi−xˉ)}=∑(xi−xˉ)21{β1∑(xi−xˉ)2+∑xˉ(xi−xˉ)}=β1
따라서 b1은 β1의 불편추정량이다.
Var(b1)=Var[∑aiyi]=∑ai2Var(yi)(∵indep.)=σ2∑(∑(xi−xˉ)2xi−xˉ)2(Var(yi)=σ2)=σ2[∑(xi−xˉ)2]2∑(xi−xˉ)2=∑(xi−xˉ)2σ2
따라서 b1∼N(β1, S(xx)σ2)이 된다. σ2의 추정은 MSE (=Sy,x)에 의하여 얻어지므로 b1의 분산의 추정값은 다음과 같다.
σ^2=Var^(b1)=S(xx)MSE,MSE=n−p−1∑(y−y^)2
(2) 신뢰구간
유의수준 α에서 b1의 신뢰구간을 구하기 위해 b1∼N(β1, S(xx)σ2)을 표준화 하면
σ/S(xx)b1−β1∼N(0,1)
로 변환해주고 b1으로 풀어주면
P(b1−zα/2S(xx)σ<β1<b1+zα/2S(xx)σ)=1−α
모수의 분산을 알지 못하는 경우 Var^(b1)를 사용하여
β1 ± tα/2(n−p−1)S(xx)MSE
(3) 개별 회귀계수 검정
개별 회귀계수의 검증에서 Var(θ^)가 알려져있지 않은 경우 t−분포를 사용하여 검정한다.
t0=S(xx)MSEb1−β10
이 구한 t0값으로 양측검정 한다면
t0>t(n−p−1;2α)
일 때 귀무가설을 기각하고 아니면 귀무가설을 채택한다.
3.4.2 β0 관련
(1) 기댓값과 분산
모집단회귀선의 절편 β0을 추정하기 위하여 모집단으로부터 하나의 표본을 사용하여 추정한 b0은
b0=yˉ−b1xˉ
이고 이 기울기는 표본으로부터 얻어진 것이므로 평균과 분산을 가지고 있으며, 평균과 분산을 구해보자.
E(b0)=E(yˉ)−xˉ⋅E(b1)=n1∑E(yi)−xˉ⋅E(b1)=n1∑(β0+β1xi)−xˉ⋅E(b1)=n1(nβ0+β1∑xi)−xˉ⋅E(b1)=β0+β1xˉ−xˉβ1=β0
따라서 b0은 β0의 불편추정량이다.
Var(b0)=Var(yˉ−b1xˉ)=Var(yˉ)+(xˉ)2Var(b1)−2Cov(yˉ, b1xˉ)=n21∑Var(yi)+(xˉ)2Var(b1)−2Cov(yˉ, b1xˉ)=n21∑σ2+(xˉ)2Var(b1)−2Cov(yˉ, b1xˉ)=nσ2+S(xx)xˉ2σ2−2Cov(yˉ, b1xˉ)=σ2(n1+S(xx)xˉ2)−2xˉCov(yˉ, b1)=σ2(n1+S(xx)xˉ2)(∵ Cov(yˉ, b1)=0)
따라서 b0∼N(β0, σ2(n1+S(xx)xˉ2))이 된다. σ2의 추정은 MSE (=Sy,x)에 의하여 얻어지므로 b0의 분산의 추정값은 다음과 같다.
σ^2=Var^(b0)=MSE(n1+S(xx)xˉ2),MSE=n−p−1∑(y−y^)2
(2) 신뢰구간
유의수준 α에서 b1의 신뢰구간을 구하기 위해 b0∼N(β0, σ2(n1+S(xx)xˉ2))을 표준화 하면
σ2(n1+S(xx)xˉ2)b0−β0∼N(0,1)
로 변환해주고 b1으로 풀어주면
P(b0−zα/2σ2(n1+S(xx)xˉ2)<β0<b1+zα/2σ2(n1+S(xx)xˉ2))=1−α
모수의 분산을 알지 못하는 경우 Var^(b1)를 사용하여
β1 ± tα/2(n−p−1)MSE(n1+S(xx)xˉ2)
(3) 개별 회귀계수 검정
개별 회귀계수의 검증에서 Var(θ^)가 알려져있지 않은 경우 t−분포를 사용하여 검정한다.
t0=MSE(n1+S(xx)xˉ2)b0−β00
이 구한 t0값으로 양측검정 한다면
t0>t(n−p−1;2α)
일 때 귀무가설을 기각하고 아니면 귀무가설을 채택한다.
3.4.3 μy,x 관련
(1) 기댓값과 분산
y의 기댓값을
E(y)=μy,x=β0+β1x
라고 정의했고 이는
y^=b0+b1x=b0′+b1(x−xˉ)=yˉ+b1(x−xˉ)
에 의하여 추정된다. 추정량 y^의 기댓값과 분산은
E(y^)=E[b0+b1x]=β0+β1x=μy,x
따라서 y^은 μy,x의 불편추정량이다.
Var(y^)=Var(yˉ+b1(x−xˉ))=Var(yˉ)+(x−xˉ)2Var(b1)+2(x−xˉ)Cov(yˉ, b1)=Var(yˉ)+(x−xˉ)2Var(b1)(∵ Cov(yˉ, b1)=0)=nσ2+S(xx)(x−xˉ)2σ2=σ2(n1+S(xx)(x−xˉ)2)
따라서 y^∼N(μy,x, σ2(n1+S(xx)(x−xˉ)2))이 된다. σ2의 추정은 MSE (=Sy,x)에 의하여 얻어지므로 y^의 분산의 추정값은 다음과 같다.
σ^2=Var^(y^)=MSE(n1+S(xx)(x−xˉ)2),MSE=n−p−1∑(y−y^)2
(2) 신뢰구간
유의수준 α에서 b1의 신뢰구간을 구하기 위해 y^∼N(μy,x, σ2(n1+S(xx)(x−xˉ)2))을 표준화 하면
σ2(n1+S(xx)(x−xˉ)2)y^−μy,x∼N(0,1)
로 변환해주고 b1으로 풀어주면
P(y^−zα/2σ2(n1+S(xx)(x−xˉ)2)<μy,x<y^+zα/2σ2(n1+S(xx)(x−xˉ)2))=1−α
모수의 분산을 알지 못하는 경우 Var^(b1)를 사용하여
y^ ± tα/2(n−p−1)MSE(n1+S(xx)(x−xˉ)2)
(3) 개별 회귀계수 검정
개별 회귀계수의 검증에서 Var(θ^)가 알려져있지 않은 경우 t−분포를 사용하여 검정한다.
t0=MSE(n1+S(xx)(x−xˉ)2)y^−y0
이 구한 t0값으로 양측검정 한다면
t0>t(n−p−1;2α)
일 때 귀무가설을 기각하고 아니면 귀무가설을 채택한다.
3.6 분산분석
회귀직선의 유의성 검정을 하기 위해서 가설을 다음과 같이 정의했다.
H0:β1=0vsH1:β=0
회귀직선의 유의성 검정을 할 때 F−검정을 하는데 그 값은 위에 구한 MSE, MSR의 비율이다. 만약 F0>F(p,n−p−1;α)이면 귀무가설을 기각하여 회귀선이 유의하다고 할 수 있다.
| 요인 | 제곱합 | 자유도 | 평균제곱 | F0 | 유의확률 |
|---|
| 회귀 | SSR | p | MSR=pSSR | MSEMSR | P(F≥F0) |
| 잔차 | SSE | n−p−1 | MSE=n−p−1SSE | | |
다음식은 총 편차를 회귀선에 의하여 설명되지 않는 편차와 설명되는 편차의 합으로 나타낸 것이다.
(yi−yˉ)=(yi−y^)−(y^−yˉ)
이 식을 제곱하고 모든 i에 대하여 합을 구하면
∑(yi−yˉ)2=∑(yi−y^)2−∑(y^−yˉ)2+2∑(yi−y^)(y^−yˉ)
가 되는데 오른쪽 마지막 항은
∑(yi−y^)(y^−yˉ)=∑ei(y^−yˉ)=∑y^ei−yˉ∑ei=b0∑ei+b1∑xei−yˉ∑ei=0−0−0=0
이므로 다음이 성립한다.
∑(yi−yˉ)2=∑(yi−y^)2−∑(y^−yˉ)2
여기서 각각
SSTSSESSR=∑(yi−yˉ)2=∑(yi−y^)2=∑(y^−yˉ)2=∑(b1(x−xˉ))2=b12S(xx)=S(xx)[S(xx)]2
으로 SST는 총변동 (총 제곱합)으로 자유도가 n−1, SSE는 잔차에 의한 제곱합으로 자유도가 n−p−1, SSR은 회귀에 의한 제곱합으로 자유도가 p 이다. 평균제곱은 제곱에 자유도를 나눈 값으로 다음과 같다.
MSEMSR=(n−p−1)SSE=pSSR
이 때 MSE는 모수 σ2의 표본 분산 (Sy,x)의 불편추정량값이다.
R2=SSTSSR=1−SSTSSE,Radj2=1−(n−1)SSTMSE
[참고문헌]