단순회귀분석

choyunjeong·2025년 1월 5일

Abstract

회귀모형 적합 과정

  1. 산점도, 상관관계

  2. 회귀모형 적합

  3. 통계적 유의성 검정

    • 회귀직선의 유의성 검정 (FF 검정)
    • 개별회귀 계수 검정 (tt 검정)
  4. 모형 적합도

    • R2R^2
    • MSEMSE
  5. 회귀진단

  • 잔차분석
  • 이상점
  • 변수선택, 다중공선성

\\[60pt]

3.1 기본 모형

단순선형회귀모형의 기본 모형은 다음과 같다.

y=β0+β1x+ϵ,ϵ(0,σ2)y=\beta_0+\beta_1x+\epsilon,\quad \epsilon\sim (0,\sigma^2)

회귀계수 또는 모수

  • β0\beta_0: 상수항 또는 절편

  • β1\beta_1: 기울기

  • ϵ\epsilon: 오차항. 정규분포가 필수는 아님.

\\[60pt]

3.2 기본 가정

  • 선형성

    • E(yx)=μy,x=β0+β1xE(y|x)=\mu_{y,x}=\beta_0+\beta_1x

    •  y=μy,x+ϵ\therefore\ y=\mu_{y,x}+\epsilon

    • Var(ϵ)=Var(yμy,x)=σ2\text{Var}(\epsilon) = \text{Var}(y - \mu_{y,x})=\sigma^2일 때

      ϵN(0, σ2)yN(μy,x, σ2)Var(y)=Var(ϵ)=σ2\epsilon\sim N(0,\ \sigma^2) \\[10pt] y\sim N(\mu_{y,x},\ \sigma^2) \\[10pt] \therefore \text{Var}(y)=\text{Var}(\epsilon)=\sigma^2
  • 등분산성

    • Var(yx)=σ2\text{Var}(y|x)=\sigma^2
  • 정규성

    • yxN(E(yx),σ2)y|x \sim N(E(y|x),\sigma^2)
  • 독립성

    • Cov(ϵi, ϵj)=0,ijCov(\epsilon_i,\ \epsilon_j)=0,\quad i\neq j

\\[60pt]

3.3 회귀선의 추정

y=β0+β1x+ϵy=\beta_0+\beta_1x+\epsilon을 추정하여 얻은 직선을

y^=b0+b1x\hat{y}=b_0+b_1x

로 표시하며, 이와 같은 직선을 추정된 회귀직선이라 부른다. 여기서 b0, b1, y^b_0,\ b_1,\ \hat{y}는 각각 β0, β1, μy,x\beta_0,\ \beta_1,\ \mu_{y,x}의 추정값 (esitmate)이다. b0, b1b_0,\ b_1을 추정하는 방법 중 최소제곱법이 가장 널리 사용된다.

\\[40pt]

3.3.1 최소제곱법

회귀모형을

yi=β0+β1xi+ϵiy_i=\beta_0+\beta_1x_i+\epsilon_i

라고 표현할 때 오차제곱들의 합

S=i=1nϵ2=i=1n(yiβ0β1xi)2S=\sum_{i=1}^{n}\epsilon^2=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2

을 최소로 하는 β0, β1\beta_0,\ \beta_1값을 이들의 추정값 b0, b1b_0,\ b_1으로 하는 방법이다. 오차제곱합 SS를 최소화시키는 β0, β1\beta_0,\ \beta_1을 구하기 위하여 SSβ0, β1\beta_0,\ \beta_1으로 각각 편미분하여 다음의 결과를 얻게 된다.

Sβ0=2(yiβ0β1xi)(1)\dfrac{\partial S}{\partial\beta_0}=-2\sum(y_i-\beta_0-\beta_1x_i) \tag{1}
Sβ1=2xi(yiβ0β1xi)(2)\dfrac{\partial S}{\partial\beta_1}=-2\sum x_i(y_i-\beta_0-\beta_1x_i) \tag{2}

위 식의 편미분 값을 0으로 만드는 β0, β1\beta_0,\ \beta_1을 각각 b0, b1b_0,\ b_1으로 대치하여 정리하면

b0n+b1xi=yib0xi+b1xi2=xiyi\begin{aligned} b_0n+ b_1\sum x_i &= \sum y_i \\[10pt] b_0\sum x_i+ b_1\sum x_i^2 &= \sum x_iy_i \end{aligned}

이 되는데 이 식을 정규방정식이라 한다. 정규방정식을 b0, b1b_0,\ b_1에 대하여 풀면,

0=(yiβ0β1xi) b0=1nyib11nxi=yˉb1xˉ0=xi(yib0b1xi)=xi(yiyˉ+b1xˉb1xi)xi(yiyˉ)=b1xi(xixˉ) b1=xi(yiyˉ)xi(xˉxi)=(xixˉ+xˉ)(yiyˉ)(xixˉ+xˉ)(xixˉ)=(xixˉ)(yiyˉ)+xˉ(yiyˉ)(xixˉ)2+xˉ(xixˉ)=(xixˉ)(yiyˉ)(xixˉ)2=S(xy)S(xx)\begin{aligned} 0 &=\sum(y_i-\beta_0-\beta_1x_i) \\[15pt] \therefore\ b_0 &= \dfrac{1}{n}\sum y_i - b_1 \dfrac{1}{n}\sum x_i \\[15pt] &=\bar{y}-b_1\bar{x} \\[20pt] 0&= \sum x_i(y_i-b_0-b_1x_i) \\[15pt] &= \sum x_i(y_i-\bar{y}+b_1\bar{x}-b_1x_i) \\[15pt] \sum x_i(y_i-\bar{y}) &= b_1\sum x_i(x_i-\bar{x}) \\[20pt] \therefore\ b_1 &= \dfrac{\sum x_i(y_i-\bar{y})}{\sum x_i(\bar{x}-x_i)} \\[15pt] &= \dfrac{\sum (x_i-\bar{x}+\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x}+\bar{x})(x_i-\bar{x})} \\[15pt] &= \dfrac{\sum (x_i-\bar{x})(y_i-\bar{y})+\sum\bar{x}(y_i-\bar{y})}{\sum (x_i-\bar{x})^2+\sum \bar{x}(x_i-\bar{x})} \\[15pt] &= \dfrac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2} \\[15pt] &= \dfrac{S_{(xy)}}{S_{(xx)}} \end{aligned}

표현을 간단히 하기 위하여 다음과 같이 설정

S(xx)=(xixˉ)2S(yy)=(yiyˉ)2S(xy)=(xixˉ)(yiyˉ)\begin{aligned} S_{(xx)}&=\sum (x_i-\bar{x})^2 \\[10pt] S_{(yy)}&=\sum (y_i-\bar{y})^2 \\[10pt] S_{(xy)}&=\sum (x_i-\bar{x})(y_i-\bar{y}) \end{aligned}

참고로 y=β0+β1x+ϵy=\beta_0+\beta_1x+\epsilon을 다음과 같은 대체모형으로 사용하는 경우도 있다.

y=β0+β1(xxˉ)+ϵ,(β0=β0+β1xˉ)y=\beta_0'+\beta_1(x-\bar{x})+\epsilon,\quad (\beta_0'=\beta_0+\beta_1\bar{x})

이 대체모형을 최소제곱법을 사용하여 b0, b1b_0',\ b_1을 구하면

y^=b0+b1(xxˉ)b0=yˉb1=S(xy)S(xx)\begin{aligned} \hat{y} &= b_0'+b_1(x-\bar{x}) \\[10pt] b_0' &= \bar{y} \\[10pt] b_1 &= \dfrac{S_{(xy)}}{S_{(xx)}} \end{aligned}

따라서 추정된 회귀선은 다음과 같이 표기된다.

y^=b0+b1xory^yˉ=b1(xxˉ)ory^=b0+b1(xxˉ)\hat{y} = b_0+b_1x \quad\text{or}\quad \hat{y} -\bar{y} = b_1(x-\bar{x}) \quad\text{or}\quad \hat{y} = b_0'+b_1(x-\bar{x})

\\[40pt]

3.3.2 최대가능도추정법

ϵN(0,σ2)\epsilon\sim N(0,\sigma^2)일 때 확률밀도함수는

f(ϵi)=12πσ2exp((ϵi0)22σ2)f(\epsilon_i)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\dfrac{(\epsilon_i-0)^2}{2\sigma^2}\right)

이고 가능도 함수는

L=i=1nf(ϵi)=1(2πσ2)n/2exp(ϵi22σ2)=1(2πσ2)n/2exp((yiβ0β1xi)22σ2)lnL=ln[1(2πσ2)n/2exp((yiβ0β1xi)22σ2)]=n2ln2πσ212σ2(yiβ0β1xi)2\begin{aligned} L=\prod_{i=1}^{n}f(\epsilon_i) &= \dfrac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\dfrac{\sum\epsilon_i^2}{2\sigma^2}\right) \\[15pt] &= \dfrac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\dfrac{\sum(y_i-\beta_0-\beta_1x_i)^2}{2\sigma^2}\right) \\[25pt] \ln L &= \ln \left[\dfrac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\dfrac{\sum(y_i-\beta_0-\beta_1x_i)^2}{2\sigma^2}\right)\right] \\[15pt] &= -\dfrac{n}{2}\ln 2\pi\sigma^2 - -\dfrac{1}{2\sigma^2}\sum(y_i-\beta_0-\beta_1x_i)^2 \end{aligned}

위 식을 각각 β0, β1\beta_0,\ \beta_1으로 미분하면

β0lnL=1σ2(yiβ0β1xi)β1lnL=1σ2xi(yiβ0β1xi)\begin{aligned} \dfrac{\partial}{\partial\beta_0} \ln L &= \dfrac{1}{\sigma^2}\sum(y_i-\beta_0-\beta_1x_i) \\[15pt] \dfrac{\partial}{\partial\beta_1} \ln L &= \dfrac{1}{\sigma^2}\sum x_i(y_i-\beta_0-\beta_1x_i) \end{aligned}

이 되는데 이를 각각 0으로 놓고 β0, β1\beta_0,\ \beta_1의 해를 구하는 것은 최소제곱법 풀이와 동일하다. 유의할 사항은 앞에서 다룬 최소제곱법은 ϵ\epsilon이 정규분포를 한다는 가정이 없을 때에도 적용되는 추정 방법이지만 최대가능도추정법은 ϵ\epsilon의 분포가 정규분포를 만족하여야한다.

\\[60pt]

3.4 개별 계수 추정값 확인.

3.4.1 β1\beta_1 관련

(1) 기댓값과 분산

모집단회귀선의 기울기 β1\beta_1을 추정하기 위하여 모집단으로부터 하나의 표본을 사용하여 추정한 b1b_1

b1=(xixˉ)(yiyˉ)(xixˉ)2b_1=\dfrac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2}

이고 이 기울기는 표본으로부터 얻어진 것이므로 평균과 분산을 가지고 있으며, 평균과 분산을 구해보자.

우선 b1b_1의 분자 식은

(xixˉ)(yiyˉ)=(xixˉ)yiyˉ(xixˉ)=(xixˉ)yi((xixˉ)=0)\begin{aligned} \sum (x_i-\bar{x})(y_i-\bar{y}) &= \sum (x_i-\bar{x})y_i - \bar{y}\sum (x_i-\bar{x}) \\[10pt] &= \sum (x_i-\bar{x})y_i\quad (\because\sum (x_i-\bar{x})=0) \end{aligned}

이므로 다음과 같이

b1=aiyi,(ai=xixˉ(xixˉ)2)b_1=\sum a_iy_i,\quad \left(a_i=\dfrac{x_i-\bar{x}}{\sum(x_i-\bar{x})^2}\right)

라고 쓸 수 있고, yiN(E(yi),σ2)y_i\sim N(E(y_i),\sigma^2)이므로 b1b_1의 기댓값과 분산은

  • 기댓값
E(b1)=E[aiyi]=aiE(yi)(Linear)=xixˉ(xixˉ)2[β0+β1(xixˉ)]( β0=β0+β1xˉ)=β0(xixˉ)(xixˉ)2+β1(xixˉ)2(xixˉ)2=β1((xixˉ)=0)orE(b1)=E[aiyi]=aiE(yi)(Linear)=xixˉ(xixˉ)2(β0+βxi)=1(xixˉ)2{(β0(xixˉ)+β1xi(xixˉ))}=1(xixˉ)2{β1(xixˉ+xˉ)(xixˉ)}((xixˉ)=0)=1(xixˉ)2{β1(xixˉ)2+xˉ(xixˉ)}=1(xixˉ)2{β1(xixˉ)2+xˉ(xixˉ)}=β1\begin{aligned} E(b_1)&=E\left[\sum a_iy_i\right] \\[15pt] &= \sum a_i E(y_i) \quad (\because \text{Linear}) \\[15pt] &= \sum \dfrac{x_i-\bar{x}}{\sum(x_i-\bar{x})^2} [\beta_0'+\beta_1(x_i-\bar{x})]\quad (\because\ \beta_0'= \beta_0 + \beta_1\bar{x}) \\[15pt] &= \beta_0'\dfrac{\sum(x_i-\bar{x})}{\sum(x_i-\bar{x})^2} + \beta_1\dfrac{\sum(x_i-\bar{x})^2}{\sum(x_i-\bar{x})^2} \\[15pt] &=\beta_1 \quad (\because \sum(x_i-\bar{x})=0) \\[15pt] & \text{or} \\[15pt] E(b_1)&=E\left[\sum a_iy_i\right] \\[15pt] &=\sum a_i E(y_i) \quad (\because \text{Linear}) \\[15pt] &=\sum \dfrac{x_i-\bar{x}}{\sum(x_i-\bar{x})^2}\cdot (\beta_0+\beta x_i) \\[15pt] &=\dfrac{1}{\sum(x_i-\bar{x})^2} \left\{(\beta_0\sum(x_i-\bar{x})+\beta_1\sum x_i(x_i-\bar{x}))\right\} \\[15pt] &=\dfrac{1}{\sum(x_i-\bar{x})^2} \left\{\beta_1\sum (x_i-\bar{x}+\bar{x})(x_i-\bar{x})\right\} \quad (\because \sum(x_i-\bar{x})=0) \\[15pt] &=\dfrac{1}{\sum(x_i-\bar{x})^2} \left\{\beta_1\sum (x_i-\bar{x})^2+\sum\bar{x}(x_i-\bar{x})\right\} \\[15pt] &=\dfrac{1}{\sum(x_i-\bar{x})^2} \left\{\beta_1\sum (x_i-\bar{x})^2+\sum\bar{x}(x_i-\bar{x})\right\} \\[15pt] &=\beta_1 \end{aligned}

따라서 b1b_1β1\beta_1의 불편추정량이다.

  • 분산
Var(b1)=Var[aiyi]=ai2Var(yi)(indep.)=σ2(xixˉ(xixˉ)2)2(Var(yi)=σ2)=σ2(xixˉ)2[(xixˉ)2]2=σ2(xixˉ)2\begin{aligned} \text{Var}(b_1)&=\text{Var}\left[\sum a_iy_i\right] \\[15pt] &=\sum a_i^2\text{Var}(y_i) \quad (\because \text{indep.}) \\[15pt] &=\sigma^2 \sum \left(\dfrac{x_i-\bar{x}}{\sum(x_i-\bar{x})^2}\right)^2 \quad (\text{Var}(y_i)=\sigma^2) \\[15pt] &=\sigma^2 \dfrac{\sum (x_i-\bar{x})^2}{[\sum(x_i-\bar{x})^2]^2} \\[15pt] &= \dfrac{\sigma^2}{\sum(x_i-\bar{x})^2} \\[15pt] \end{aligned}

따라서 b1N(β1, σ2S(xx))b_1\sim N\left(\beta_1,\ \dfrac{\sigma^2}{S_{(xx)}}\right)이 된다. σ2\sigma^2의 추정은 MSE (=Sy,x)MSE\ (=S_{y,x})에 의하여 얻어지므로 b1b_1의 분산의 추정값은 다음과 같다.

σ^2=Var^(b1)=MSES(xx),MSE=(yy^)2np1\hat{\sigma}^2=\hat{\text{Var}}(b_1)=\dfrac{MSE}{S_{(xx)}},\quad MSE=\dfrac{\sum (y-\hat{y})^2}{n-p-1}

\\[40pt]

(2) 신뢰구간

유의수준 α\alpha에서 b1b_1의 신뢰구간을 구하기 위해 b1N(β1, σ2S(xx))b_1\sim N\left(\beta_1,\ \dfrac{\sigma^2}{S_{(xx)}}\right)을 표준화 하면

b1β1σ/S(xx)N(0,1)\dfrac{b_1-\beta_1}{\sigma/\sqrt{S_{(xx)}}} \sim N(0,1)

로 변환해주고 b1b_1으로 풀어주면

P(b1zα/2σS(xx)<β1<b1+zα/2σS(xx))=1αP(b_1-z_{\alpha/2}\dfrac{\sigma}{\sqrt{S_{(xx)}}} < \beta_1 < b_1+z_{\alpha/2}\dfrac{\sigma}{\sqrt{S_{(xx)}}})= 1-\alpha

모수의 분산을 알지 못하는 경우 Var^(b1)\hat{\text{Var}}(b_1)를 사용하여

β1 ± tα/2(np1)MSES(xx)\beta_1\ \pm\ t_{\alpha/2}(n-p-1)\sqrt{\dfrac{MSE}{S_{(xx)}}}

\\[40pt]

(3) 개별 회귀계수 검정

개별 회귀계수의 검증에서 Var(θ^)\text{Var}(\hat{\theta})가 알려져있지 않은 경우 tt-분포를 사용하여 검정한다.

t0=b1β10MSES(xx)t_0=\dfrac{b_1-\beta_{10}}{\sqrt{\dfrac{MSE}{S_{(xx)}}}}

이 구한 t0t_0값으로 양측검정 한다면

t0>t(np1;α2)t_0>t\left(n-p-1;\dfrac{\alpha}{2}\right)

일 때 귀무가설을 기각하고 아니면 귀무가설을 채택한다.

\\[50pt]

3.4.2 β0\beta_0 관련

(1) 기댓값과 분산

모집단회귀선의 절편 β0\beta_0을 추정하기 위하여 모집단으로부터 하나의 표본을 사용하여 추정한 b0b_0

b0=yˉb1xˉb_0=\bar{y}-b_1\bar{x}

이고 이 기울기는 표본으로부터 얻어진 것이므로 평균과 분산을 가지고 있으며, 평균과 분산을 구해보자.

  • 기댓값
E(b0)=E(yˉ)xˉE(b1)=1nE(yi)xˉE(b1)=1n(β0+β1xi)xˉE(b1)=1n(nβ0+β1xi)xˉE(b1)=β0+β1xˉxˉβ1=β0\begin{aligned} E(b_0)&=E(\bar{y})-\bar{x}\cdot E(b_1) \\[10pt] &=\dfrac{1}{n}\sum E(y_i)-\bar{x}\cdot E(b_1) \\[10pt] &=\dfrac{1}{n}\sum (\beta_0+\beta_1x_i)-\bar{x}\cdot E(b_1) \\[10pt] &=\dfrac{1}{n}(n\beta_0+\beta_1\sum x_i)-\bar{x}\cdot E(b_1) \\[10pt] &=\beta_0+\beta_1\bar{x}-\bar{x}\beta_1 \\[10pt] &=\beta_0 \end{aligned}

따라서 b0b_0β0\beta_0의 불편추정량이다.

  • 분산
Var(b0)=Var(yˉb1xˉ)=Var(yˉ)+(xˉ)2Var(b1)2Cov(yˉ, b1xˉ)=1n2Var(yi)+(xˉ)2Var(b1)2Cov(yˉ, b1xˉ)=1n2σ2+(xˉ)2Var(b1)2Cov(yˉ, b1xˉ)=σ2n+xˉ2σ2S(xx)2Cov(yˉ, b1xˉ)=σ2(1n+xˉ2S(xx))2xˉCov(yˉ, b1)=σ2(1n+xˉ2S(xx))( Cov(yˉ, b1)=0)\begin{aligned} \text{Var}(b_0)&=\text{Var}(\bar{y}-b_1\bar{x}) \\[15pt] &=\text{Var}(\bar{y})+(\bar{x})^2\text{Var}(b_1)-2Cov(\bar{y},\ b_1\bar{x}) \\[15pt] &=\dfrac{1}{n^2}\sum \text{Var}(y_i)+(\bar{x})^2\text{Var}(b_1)-2Cov(\bar{y},\ b_1\bar{x}) \\[15pt] &=\dfrac{1}{n^2}\sum \sigma^2+(\bar{x})^2\text{Var}(b_1)-2Cov(\bar{y},\ b_1\bar{x}) \\[15pt] &=\dfrac{\sigma^2}{n} + \dfrac{\bar{x}^2\sigma^2}{S_{(xx)}}-2Cov(\bar{y},\ b_1\bar{x}) \\[15pt] &=\sigma^2\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)-2\bar{x}Cov(\bar{y},\ b_1) \\[15pt] &=\sigma^2\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)\quad (\because\ Cov(\bar{y},\ b_1)=0) \\[15pt] \end{aligned}

따라서 b0N(β0, σ2(1n+xˉ2S(xx)))b_0\sim N\left(\beta_0,\ \sigma^2\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)\right)이 된다. σ2\sigma^2의 추정은 MSE (=Sy,x)MSE\ (=S_{y,x})에 의하여 얻어지므로 b0b_0의 분산의 추정값은 다음과 같다.

σ^2=Var^(b0)=MSE(1n+xˉ2S(xx)),MSE=(yy^)2np1\hat{\sigma}^2=\hat{\text{Var}}(b_0)=MSE\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right),\quad MSE=\dfrac{\sum (y-\hat{y})^2}{n-p-1}

\\[40pt]

(2) 신뢰구간

유의수준 α\alpha에서 b1b_1의 신뢰구간을 구하기 위해 b0N(β0, σ2(1n+xˉ2S(xx)))b_0\sim N\left(\beta_0,\ \sigma^2\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)\right)을 표준화 하면

b0β0σ2(1n+xˉ2S(xx))N(0,1)\dfrac{b_0-\beta_0}{\sqrt{\sigma^2\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)}} \sim N(0,1)

로 변환해주고 b1b_1으로 풀어주면

P(b0zα/2σ2(1n+xˉ2S(xx))<β0<b1+zα/2σ2(1n+xˉ2S(xx)))=1αP(b_0-z_{\alpha/2}\sqrt{\sigma^2\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)} < \beta_0 < b_1+z_{\alpha/2}\sqrt{\sigma^2\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)}) = 1-\alpha

모수의 분산을 알지 못하는 경우 Var^(b1)\hat{\text{Var}}(b_1)를 사용하여

β1 ± tα/2(np1)MSE(1n+xˉ2S(xx))\beta_1\ \pm\ t_{\alpha/2}(n-p-1)\sqrt{MSE\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)}

\\[40pt]

(3) 개별 회귀계수 검정

개별 회귀계수의 검증에서 Var(θ^)\text{Var}(\hat{\theta})가 알려져있지 않은 경우 tt-분포를 사용하여 검정한다.

t0=b0β00MSE(1n+xˉ2S(xx))t_0=\dfrac{b_0-\beta_{00}}{\sqrt{MSE\left(\dfrac{1}{n} + \dfrac{\bar{x}^2}{S_{(xx)}}\right)}}

이 구한 t0t_0값으로 양측검정 한다면

t0>t(np1;α2)t_0>t\left(n-p-1;\dfrac{\alpha}{2}\right)

일 때 귀무가설을 기각하고 아니면 귀무가설을 채택한다.

\\[50pt]

3.4.3 μy,x\mu_{y,x} 관련

(1) 기댓값과 분산

yy의 기댓값을

E(y)=μy,x=β0+β1xE(y)=\mu_{y,x}=\beta_0+\beta_1x

라고 정의했고 이는

y^=b0+b1x=b0+b1(xxˉ)=yˉ+b1(xxˉ)\hat{y}=b_0+b_1x=b_0'+b_1(x-\bar{x})=\bar{y}+b_1(x-\bar{x})

에 의하여 추정된다. 추정량 y^\hat{y}의 기댓값과 분산은

  • 기댓값
E(y^)=E[b0+b1x]=β0+β1x=μy,x\begin{aligned} E(\hat{y})&=E[b_0+b_1x] \\[10pt] &=\beta_0+\beta_1x \\[10pt] &=\mu_{y,x} \end{aligned}

따라서 y^\hat{y}μy,x\mu_{y,x}의 불편추정량이다.

  • 분산
Var(y^)=Var(yˉ+b1(xxˉ))=Var(yˉ)+(xxˉ)2Var(b1)+2(xxˉ)Cov(yˉ, b1)=Var(yˉ)+(xxˉ)2Var(b1)( Cov(yˉ, b1)=0)=σ2n+(xxˉ)2σ2S(xx)=σ2(1n+(xxˉ)2S(xx))\begin{aligned} \text{Var}(\hat{y})&=\text{Var}(\bar{y}+b_1(x-\bar{x})) \\[15pt] &=\text{Var}(\bar{y})+(x-\bar{x})^2\text{Var}(b_1)+2(x-\bar{x})Cov(\bar{y},\ b_1) \\[15pt] &=\text{Var}(\bar{y})+(x-\bar{x})^2\text{Var}(b_1)\quad (\because\ Cov(\bar{y},\ b_1)=0) \\[15pt] &=\dfrac{\sigma^2}{n} + \dfrac{(x-\bar{x})^2\sigma^2}{S_{(xx)}} \\[15pt] &=\sigma^2\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right) \\[15pt] \end{aligned}

따라서 y^N(μy,x, σ2(1n+(xxˉ)2S(xx)))\hat{y}\sim N\left(\mu_{y,x},\ \sigma^2\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right)\right)이 된다. σ2\sigma^2의 추정은 MSE (=Sy,x)MSE\ (=S_{y,x})에 의하여 얻어지므로 y^\hat{y}의 분산의 추정값은 다음과 같다.

σ^2=Var^(y^)=MSE(1n+(xxˉ)2S(xx)),MSE=(yy^)2np1\hat{\sigma}^2=\hat{\text{Var}}(\hat{y})=MSE\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right),\quad MSE=\dfrac{\sum (y-\hat{y})^2}{n-p-1}

\\[40pt]

(2) 신뢰구간

유의수준 α\alpha에서 b1b_1의 신뢰구간을 구하기 위해 y^N(μy,x, σ2(1n+(xxˉ)2S(xx)))\hat{y}\sim N\left(\mu_{y,x},\ \sigma^2\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right)\right)을 표준화 하면

y^μy,xσ2(1n+(xxˉ)2S(xx))N(0,1)\dfrac{\hat{y}-\mu_{y,x}}{\sqrt{\sigma^2\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right)}} \sim N(0,1)

로 변환해주고 b1b_1으로 풀어주면

P(y^zα/2σ2(1n+(xxˉ)2S(xx))<μy,x<y^+zα/2σ2(1n+(xxˉ)2S(xx)))=1αP(\hat{y}-z_{\alpha/2}\sqrt{\sigma^2\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right)} < \mu_{y,x} < \hat{y}+z_{\alpha/2}\sqrt{\sigma^2\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right)}) = 1-\alpha

모수의 분산을 알지 못하는 경우 Var^(b1)\hat{\text{Var}}(b_1)를 사용하여

y^ ± tα/2(np1)MSE(1n+(xxˉ)2S(xx))\hat{y}\ \pm\ t_{\alpha/2}(n-p-1)\sqrt{MSE\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right)}

\\[40pt]

(3) 개별 회귀계수 검정

개별 회귀계수의 검증에서 Var(θ^)\text{Var}(\hat{\theta})가 알려져있지 않은 경우 tt-분포를 사용하여 검정한다.

t0=y^y0MSE(1n+(xxˉ)2S(xx))t_0=\dfrac{\hat{y}-y_0}{\sqrt{MSE\left(\dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{S_{(xx)}}\right)}}

이 구한 t0t_0값으로 양측검정 한다면

t0>t(np1;α2)t_0>t\left(n-p-1;\dfrac{\alpha}{2}\right)

일 때 귀무가설을 기각하고 아니면 귀무가설을 채택한다.

\\[60pt]

3.6 분산분석

회귀직선의 유의성 검정을 하기 위해서 가설을 다음과 같이 정의했다.

H0:β1=0vsH1:β0H_0: \beta_1=0\quad\text{vs}\quad H_1: \beta\neq 0

회귀직선의 유의성 검정을 할 때 FF-검정을 하는데 그 값은 위에 구한 MSE, MSRMSE,\ MSR의 비율이다. 만약 F0>F(p,np1;α)F_0>F(p,n-p-1;\alpha)이면 귀무가설을 기각하여 회귀선이 유의하다고 할 수 있다.

  • 분산분석표
요인제곱합자유도평균제곱F0F_0유의확률
회귀SSRSSRppMSR=SSRpMSR=\dfrac{SSR}{p}MSRMSE\dfrac{MSR}{MSE}P(FF0)P(F\ge F_0)
잔차SSESSEnp1n-p-1MSE=SSEnp1MSE=\dfrac{SSE}{n-p-1}

다음식은 총 편차를 회귀선에 의하여 설명되지 않는 편차와 설명되는 편차의 합으로 나타낸 것이다.

(yiyˉ)=(yiy^)(y^yˉ)(y_i-\bar{y}) = (y_i-\hat{y}) - (\hat{y}-\bar{y})

이 식을 제곱하고 모든 ii에 대하여 합을 구하면

(yiyˉ)2=(yiy^)2(y^yˉ)2+2(yiy^)(y^yˉ)\sum(y_i-\bar{y})^2 = \sum(y_i-\hat{y})^2 - \sum(\hat{y}-\bar{y})^2 +2\sum(y_i-\hat{y})(\hat{y}-\bar{y})

가 되는데 오른쪽 마지막 항은

(yiy^)(y^yˉ)=ei(y^yˉ)=y^eiyˉei=b0ei+b1xeiyˉei=000=0\begin{aligned} \sum(y_i-\hat{y})(\hat{y}-\bar{y}) &= \sum e_i(\hat{y}-\bar{y}) \\[10pt] &= \sum \hat{y}e_i - \bar{y}\sum e_i \\[10pt] &= b_0\sum e_i + b_1\sum xe_i - \bar{y}\sum e_i \\[10pt] &=0 - 0 - 0 \\[10pt] &=0 \end{aligned}

이므로 다음이 성립한다.

(yiyˉ)2=(yiy^)2(y^yˉ)2\sum(y_i-\bar{y})^2 = \sum(y_i-\hat{y})^2 - \sum(\hat{y}-\bar{y})^2

여기서 각각

SST=(yiyˉ)2SSE=(yiy^)2SSR=(y^yˉ)2=(b1(xxˉ))2=b12S(xx)=[S(xx)]2S(xx)\begin{aligned} SST &= \sum(y_i-\bar{y})^2 \\[10pt] SSE &= \sum(y_i-\hat{y})^2 \\[10pt] SSR &= \sum(\hat{y}-\bar{y})^2 \\[10pt] &= \sum(b_1(x-\bar{x}))^2 \\[10pt] &= b_1^2S_{(xx)} \\[10pt] &= \dfrac{[S_{(xx)}]^2}{S_{(xx)}} \end{aligned}

으로 SSTSST는 총변동 (총 제곱합)으로 자유도가 n1n-1, SSESSE는 잔차에 의한 제곱합으로 자유도가 np1n-p-1, SSRSSR은 회귀에 의한 제곱합으로 자유도가 pp 이다. 평균제곱은 제곱에 자유도를 나눈 값으로 다음과 같다.

MSE=SSE(np1)MSR=SSRp\begin{aligned} MSE &= \dfrac{SSE}{(n-p-1)} \\[10pt] MSR &= \dfrac{SSR}{p} \\[10pt] \end{aligned}

이 때 MSEMSE는 모수 σ2\sigma^2의 표본 분산 (Sy,x)(S_{y,x})의 불편추정량값이다.

R2=SSRSST=1SSESST,Radj2=1(n1)MSESSTR^2= \frac{SSR}{SST} = 1- \frac{SSE}{SST},\quad R_{adj}^2= 1 - (n-1)\frac{MSE}{SST}

[참고문헌]

  • 회귀분석 제 3판 - 박성현

0개의 댓글