Linear Regression

‍이세현·2025년 4월 21일
0

Introduction

반응 변수 (response variable, 종속 변수) yy는 설명 변수 (predictor variables, 독립 변수) x1,x2,,xpx_1, x_2, \cdots, x_p의 함수로 모형화, 모델링한다. 다중 선형회귀 모델은 다음과 같이 표현된다.

yi=β0+β1x1i++βpxpi+εi,i=1,2,,n.y_i=\beta_0+\beta_1x_{1i}+\cdots+\beta_px_{pi}+\varepsilon_i, \quad i=1,2,\cdots,n.

이때, 관츨할 수 없는 오차항 εi\varepsilon_iN(0,σ2)N(0,\sigma^2)인 정규분포를 따른다고 가정한다.

  • 오차항 ε\varepsilon의 제곱의 합 QQ는 다음과 같이 표현할 수 있다.
    Q=i=1Nεi2=i=1N(yi(β0+β1x1i++βpxpi))2Q=\sum_{i=1}^N\varepsilon_i^2=\sum_{i=1}^{N}(y_i-(\beta_0+\beta_1x_{1i}+\cdots+\beta_px_{pi}))^2
  • 독립 변수와 종속 변수의 관계를 잘 설명하기 위해서는 QQ 값을 최소화해야 한다. 관측값과 모델이 예측한 값의 차이(잔차) 제곱합을 가장 작게 만드는 파라미터를 선택하여, 그 파라미터로 모형을 추정하는 방법을 최소제곱추정(Least Square Estimation)이라고 한다. p+1p+1개의 정규 방정식을 풀어야 한다.
    Qβ0=i=1n2εi=0\frac{\partial Q}{\partial\beta_0}=-\sum_{i=1}^n2\varepsilon_i=0
    Qβj=i=1n2xjiεi=0,for j=1,2,,p.\frac{\partial Q}{\partial\beta_j}=-\sum_{i=1}^n2x_{ji}\varepsilon_i=0, \quad\text{for }j=1,2,\dots,p.

Matrix Notation of Multiple Linear Regression

데이터 포인트(관측치)가 아래와 같다고 할 때, 행렬로 표기할 수 있다.

y1=β0+β1x11++βpxp1+ε1y2=β0+β1x12++βpxp2+ε2yn=β0+β1x1n++βpxpn+εny_1=\beta_0+\beta_1x_{11}+\cdots+\beta_px_{p1}+\varepsilon_1 \\ y_2=\beta_0+\beta_1x_{12}+\cdots+\beta_px_{p2}+\varepsilon_2 \\ y_n=\beta_0+\beta_1x_{1n}+\cdots+\beta_px_{pn}+\varepsilon_n
y=[y1y2y3yn],X=[1x11x21xp11x12x22xp21x13x23xp31x1nx2nxpn],β=[β0β1β2βp],ε=[ε1ε2ε3εn]y=\begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ \vdots \\ y_n \end{bmatrix}, \mathbf{X}=\begin{bmatrix} 1 & x_{11} & x_{21} & \cdots & x_{p1} \\ 1 & x_{12} & x_{22} & \cdots & x_{p2} \\ 1 & x_{13} & x_{23} & \cdots & x_{p3} \\ \vdots & & & \ddots & \\ 1 & x_{1n} & x_{2n} & \cdots & x_{pn} \end{bmatrix}, \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_p \end{bmatrix}, \varepsilon=\begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \\ \vdots \\ \varepsilon_n \end{bmatrix}

ε\varepsilon이 정규분포 N(0,σ2In)N(0,\sigma^2I_n)을 따를 때 다음과 같이 표현할 수 있다.

y=Xβ+ϵy=\mathbf{X}\beta+\epsilon
  • β\beta의 최소제곱 추정값이 β^\hat\beta일 때 y^=Xβ^\hat{y}=\mathbf{X}\hat\beta이다.
  • 행렬 표기에 따라 오차항의 제곱합은 Q=(yixiTβ)2Q=\sum(y_i-\mathbf{x}_i^T\beta)^2으로 나타낼 수 있으며 xiT=(1,x1i,x2i,,xpi)\mathbf{x}_i^T=(1,x_{1i},x_{2i},\dots,x_{pi})이다.
    • Q=(yXβ)T(yXβ)=yTy2βTXTy+βTXTXβQ=(y-\mathbf{X}\beta)^T(y-\mathbf{X}\beta)=y^Ty-2\beta^T\mathbf{X}^Ty+\beta^T\mathbf{X}^T\mathbf{X}\beta
    • QQ를 미분하면 β\beta의 최소제곱 추정치가 유도된다.
      β^=(XTX)1XTy\hat\beta=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^Ty

The statistical properties of LSE

앞서 유도된 β\beta의 최소제곱추정치에서 yyXβ+ϵ\mathbf{X}\beta+\epsilon을 대입하면 아래 식이 유도된다.

β^=β+(XTX)1XTϵ\hat\beta=\beta+(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\epsilon

이때 ϵ\epsilon은 정규분포를 따르므로 다음이 성립한다.

  • E[β^]=β+E[(XTX)1XTϵ]=βE[\hat\beta]=\beta+E[(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\epsilon]=\beta
  • Var(β^)=(XTX)1XTVar(ϵ)((XTX)1XT)T=σ2(XTX)1Var(\hat\beta)=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^TVar(\epsilon)((\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T)^T=\sigma^2(\mathbf{X}^T\mathbf{X})^{-1}
    • β^\hat\beta의 분산은 모델의 독립 변수 X\mathbf{X}에 의해 결정되며, yy와는 무관하다.
  • β^N(β,σ2(XTX)1)\hat\beta\sim N(\beta, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1})

Deriving parameters for Simple Linear Regression

yi=β0+β1xi+εiy_i=\beta_0+\beta_1x_i+\varepsilon_i인 단순한 선형회귀 문제에서 다음을 가정하고 β^0,β^1\hat\beta_0, \hat\beta_1을 유도한다.

β^=(β^0β^1),XT=(111x1x2xn,),y=(y1y2yn)\hat\beta=\begin{pmatrix} \hat\beta_0 \\ \hat\beta_1 \end{pmatrix}, \mathbf{X}^T=\begin{pmatrix} 1 & 1 & \cdots & 1 \\ x_1 & x_2 & \cdots & x_n, \end{pmatrix}, y=\begin{pmatrix} y_1 & y_2 & \cdots & y_n \end{pmatrix}
  • XTy=(yixiyi)\mathbf{X}^Ty=\begin{pmatrix} \sum y_i \\ \sum x_iy_i \end{pmatrix}
  • β^1=(xixˉ)(yiyˉ)(xixˉ)2\hat\beta_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}, 즉 x,yx, y의 공분산을 xx의 분산으로 나눈 것
  • β^0=yˉβ^1xˉ\hat\beta_0=\bar{y}-\hat\beta_1\bar{x}

Variance of the Residual

y^=X(XTX)1XTy=HY\hat{y}=\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^Ty=\mathbf{H}Y로 표현해보자.

이때, H\mathbf{H}hat matrix이다.
잔차 행렬 e=yy^\mathbf{e}=y-\hat{y}로 표현했을 때 e=(IH)ye=(\mathbf{I}-\mathbf{H})y이다. H\mathbf{H}1H1-\mathbf{H}는 대칭이며 H2=H\mathbf{H}^2=\mathbf{H}idempotent matrix이다.

이를 활용하여 잔차 행렬의 분산을 구할 수 있다.

Var(e)=Var((IH)y)=σ2(IH)Var(\mathbf{e})=Var((\mathbf{I}-\mathbf{H})-y)=\sigma^2(\mathbf{I}-\mathbf{H})

또한 잔차제곱합의 기댓값 E(eTe)E(\mathbf{e}^T\mathbf{e})는 다음과 같이 계산된다.

σ^2=eTen2=MSE\hat\sigma^2=\frac{\mathbf{e}^T\mathbf{e}}{n-2}=\text{MSE}
  • 단순선형회귀 모델에서는 기울기 하나 (p=1p=1), 절편 하나까지 포함하여 모수가 2개이므로 자유도는 n2n-2이다.
  • idempotent 성질 덕분에 식이 단순해지고 자유도 n2n-2가 자연스럽게 도출된다.

Fitted Values and Residuals

Y^=[Y^1Y^2Y^n],e=[Y1Y^1Y2Y^2YnY^n]=[e1e2en]\hat\mathbf{Y}=\begin{bmatrix} \hat{Y}_1 \\ \hat{Y}_2 \\ \vdots \\ \hat{Y}_n \end{bmatrix}, \quad \mathbf{e}=\begin{bmatrix} Y_1-\hat{Y}_1 \\ Y_2-\hat{Y}_2 \\ \vdots \\ Y_n-\hat{Y}_n \end{bmatrix} =\begin{bmatrix} e_1 \\ e_2 \\ \vdots \\ e_n \end{bmatrix}

선형회귀 모델은 다음과 같이 표현된다.

Y^=Xβ^=HY,e=(IH)Y\hat\mathbf{Y}=\mathbf{X}\hat\beta=\mathbf{HY}, \quad \mathbf{e}=(\mathbf{I-H})\mathbf{Y}
Var(e)=σ2(IH),Var(e)^=MSE(IH)Var(\mathbf{e})=\sigma^2\cdot(\mathbf{I-H}), \quad \hat{Var(\mathbf{e})}=\text{MSE}\cdot(\mathbf{I-H})

Analysis of Variance Results

  1. Sum of Squares Total: 관측값에서 관측값의 평균을 뺀 것
    • (yiyˉ)2\sum(y_i-\bar{y})^2
  2. Sum of Squares Error: 잔차 제곱합
    • (yiy^i)2\sum(y_i-\hat{y}_i)^2
  3. Sum of Squares due to Regression: 예측값에서 관측값의 평균을 뺀 것
    • (y^iyˉ)2\sum(\hat{y}_i-\bar{y})^2
  • Analysis of Variance(ANOVA) Table
    • SourceSSDegree of FreedomMean Square
      RegressionSSRppMSR=SSRp\frac{SSR}{p}
      ErrorSSEnp1n-p-1MSE=SSEnp1\frac{SSE}{n-p-1}
      TotalSSTn1n-1
profile
Hi, there 👋

0개의 댓글