Linear Regression 3

한상우·2024년 8월 18일

스터디

목록 보기

3/23

Bias-variance decomposition

Bias-variance decomposition(편향-분산 분해)를 사용하여 실제값과 예측값의 차이(예측 오차)를 구성하는 세 가지 요소를 찾아보자

사용할 표기법을 정리하면 아래와 같다

표기	설명
$f(x)$	실제값, true function
$y=f(x)+\epsilon$	노이즈가 포함된 실제값, oberved value
$h(x)$	모델에 의해 추정된 예측 함수, predicted function
$\bar h(x)$	예측 함수의 기대값, expected prediction
$E_p[(y-h(x))^2$ \| $x]$	조건부 평균 제곱 오차, conditional MSE

(2), (3)을 (1)에 대입하면

$Var(h(x))$ : 추정값 자체의 분산. 추정계수들과 절편의 분산과 비례한다
$Var(h(x)) = Var(\beta_0) + x_1^2Var(\beta_1) + \dots + x_n^2Var(\beta_n)$

$bias$ : 실제값( $f(x)$ )과 모델의 평균 예측값( $\bar h(x))$ 의 차이를 나타낸다.
- $bias$ 가 높은 경우 : 복잡한 비선형 관계를 가진 데이터를 linear regression 모델로 학습할 경우 bias가 높다(선형 회귀 분석의 가정 중 선형성에 위배되는 경우). 모델이 데이터의 복잡한 패턴을 제대로 학습하지 못하고 지나치게 단순화된 예측을 해 underfitting 문제가 발생한다.
- $bias$ 가 낮은 경우 : 모델이 실제 데이터의 패턴을 잘 학습하고 있다는 것을 의미한다. 하지만 이 경우, 모델이 데이터의 noise까지 학습하는 overfitting의 가능성을 생각해야 한다.

$noise$ : 데이터 자체에 내재된 변동성을 의미하며, 이는 종속 변수 y와 실제 함수 f(x)간의 근본적인 차이에서 비롯된다. 이 변동성은 데이터에 포함된 랜덤한 오차나 잡음으로, 모델이 학습을 통해 극복할 수 없는 요소이다.

OLS Matrix From

다중 선형 회귀 모델은 아래와 같이 표현 가능하다
$y = w_0 + w_1x_1 + w_2x_2 + \dots + w_nx_n + \epsilon$

종속 변수의 벡터 Y, 독립변수의 행렬 X, 회귀 계수의 벡터 W는 다음과 같다

Y_{m,1} = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix},\;X_{m,n+1} = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1n} \\ 1 & x_{21} & \cdots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & \cdots & x_{mn} \end{pmatrix},\;W_{n+1,1}^T = \begin{pmatrix} w_{0} \\ w_{1} \\ \vdots \\ w_{n} \end{pmatrix}

선형 회귀 모델은 $Y=XW+\epsilon$ 로 표현 가능하다
OLS의 목표는 $\epsilon$ 의 제곱합을 최소화하여 $W$ 의 추정값을 알아내는 것이다
$L(W)=\sum_{i=1}^m \epsilon_i^2=(Y-XW)^T(Y-XW)\;\dots\;Loss\;Function$

$L(W)$ 를 전개(1)하고 편미분(2)해 0이 되는 값이 $\epsilon$ 의 제곱합의 최솟값이 된다
$L(W) = Y^TY-Y^TXW-W^TX^TY+W^TX^TXW\dots(1)\\{\partial S(W)\over \partial W} =-y^TX -(X^TY)^T+ (W^TX^TX+(X^TXW)^T)\\= -2Y^TX+2W^TX^TX\\-2Y^TX+2W^TX^TX=0\dots(2)$

(2)를 $W$ 에 대해 정리해준다
$W^TX^TX=Y^TX\\W^T=Y^TX(X^TX)^{-1}\\W=(X^TX)^{-1}X^TY$

위에서 구한 W는 다음과 같은 특징을 갖는다
- 유일성: OLS 해는 $W = (X^TX)^{-1}X^Ty$ 로 표현되며, 이는 $det(X^TX) \neq 0$ 일 경우(역행렬을 가질 경우) 유일하다.
- 시간복잡도 : $(X^TX)$ 의 역행렬을 계산하는 과정이 가장 비용이 크기 때문에 일반적으로 $O(n^3)$ 이다.

선형 회귀 : 확률적 접근

지금까지 살펴 본 OLS의 경우는 deterministic approach이다. 이번에는 선형 회귀 모델을 probabilistic approach로 살펴보자.
probabilistic approach에서는 데이터가 확률 분포에서 발생한다고 가정하고, 이를 기반으로 회귀 계수를 추정한다(=MLE)

선형 회귀 모델은 다음과 같이 가정한다

$y_i=x_i^T\beta+\epsilon_i$
- $y_i$ : 확률적으로 발현된 종속 변수 (scalar)
- $x_i$ : i번째 데이터 포인트의 독립 변수 벡터 (n x 1)
- $\beta$ : 회귀 계수 벡터 (n x 1)
- $\epsilon_i$ : 독립적이고 동일하게 분포된(i.i.d.) 정규분포 $N(0,\sigma^2)$ 를 따르는 오차 항 (scalar)
이 가정 아래에 $y_i \sim N(x_i^T\beta,\sigma^2)$ 가 성립한다
MLE를 적용해 주어진 데이터가 관측될 확률을 최대화하는 $\beta$ 를 찾는다.

우도함수는 다음과 같다
$L(\beta,\sigma^2)= \prod_{i=1}^m P(y_i|x_i;\beta,\sigma^2)$

$y_i \sim N(x_i^T\beta,\sigma^2)$ 이므로, 우도함수를 아래와 같이 표현 가능하다
$L(\beta,\sigma^2)= \prod_{i=1}^m {1\over{\sqrt{2\pi\sigma^2}}}exp(-{(y_i-x_i^T\beta)^2\over 2\sigma^2})$

계산의 편의성을 위해 로그 우도 함수를 사용한다
$ℓ(\beta,\sigma^2) = -{m\over 2}log(2\pi\sigma^2)-{1\over{2\sigma^2}}\sum_{i=1}^m(y_i-x_i^T\beta)^2$

로그 우도 함수를 $\beta$ 에 대해 편미분(1)하고, 그 결과를 0으로 설정(2)하면 우도가 최대화 된다

${\partial ℓ(\beta,\sigma^2)\over \partial \beta} =-{1\over{2\sigma^2}}\sum_{i=1}^m 2(y_i-x_i^T\beta)(-x_i)\\ ={1\over{\sigma^2}}\sum_{i=1}^m x_i(y_i-x_i^T\beta)\\ ={1\over \sigma^2}[x_1(y_1-x_1^T\beta)]+\dots+[x_m(y_m-x_m^T\beta)]\\= {1\over \sigma^2}X^T(Y-X\beta)\dots(1)\\\;\\ where \\ Y_{m,1}=\begin{pmatrix}y_1\\y_2\\\vdots\\ y_m\end{pmatrix},\; X_{m,n}=\begin{pmatrix}x_1^T\\x_2^T\\\vdots\\ x_m^T\end{pmatrix}\;, X^T_{n,m} =\begin{pmatrix}x_1\;x_2\dots x_m\end{pmatrix}\;, X\beta_{m,1}=\begin{pmatrix}x_1^T\beta\\x_2^T\beta\\\vdots\\ x_m^T\beta\end{pmatrix}\\\;\\{1\over \sigma^2}X^T(Y-X\beta)=0\dots(2)$

(2)를 $\beta$ 에 대해서 정리해준다
$X^TY-X^TX\beta=0\\X^TX\beta=X^TY\\\beta=(X^TX)^{-1}X^TY$
MLE를 통한 회귀 계수의 추정은 OLS와 동일한 해를 제공한다

선형 회귀의 기하학적 해석

우선 간단한 예시(독립 변수 2개, $\mathbb R^3$ , 절편 = 0)인 $Y=XW$ 를 생각해보자
종속 변수 $Y$ 를 $x_1,x_2$ 의 선형 결합으로 표현하는 것은 $Y$ 를 ( $x_1,x_2$ )가 형성하는 평면의 한 점으로 나타낸다는 의미이다.

$\begin{pmatrix}y_1\\y_2\\ y_3\end{pmatrix}=\begin{pmatrix}x_{11}\\x_{12}\\ x_{13}\end{pmatrix}w_1+\begin{pmatrix}x_{21}\\x_{22}\\ x_{23}\end{pmatrix}w_2$

이는 3차원 벡터 $Y$ 를 $X$ 의 Column Space로 투영하여 $\hat Y$ 를 구하는 것과 동일하다. 이때 $\hat W=\begin{pmatrix}w_1\\w_2\end{pmatrix}$ 는 $C(X)$ 와 $(Y - \hat{Y})$ 가 직교하도록 해주는 벡터이다.
선형 회귀의 기하학적 해석을 일반화(데이터 row수 m, 독립변수 n개)하면 다음과 같다
- $\mathbb R^m$ 공간의 벡터 $Y$ 를 $R^n$ 공간의 $C(X)$ 에 최소 거리로 투영(최소 오차 근사)한 벡터 $\hat Y$ 을 구하는 것.
- 이때, $\hat{Y} = X \hat{W}$ 이고, $\hat W$ 는 잔차 벡터 $(Y - \hat{Y})$ 가 $C(X)$ 와 직교하도록 하는 회귀 계수 벡터이다.
$\hat W$ 를 구하는 과정은 아래와 같다

$C(X)$ 와 잔차 벡터 $(Y - \hat{Y})$ 가 직교해야 하므로 $C(X)$ 의 기저인 ( $X_1, X_2,\dots X_n)$ 과 잔차 벡터가 모두 직교해야 한다

$X_1^T(Y-\hat Y) = 0,\\X_2^T(Y-\hat Y) = 0,\\ \qquad\;\;\;\;\vdots\\X_n^T(Y-\hat Y) = 0\\\;\\∴X^T(Y-X\hat W)=0$

위 식을 전개하고 $\hat W$ 에 대해 정리해준다

$X^TY-X^TX\hat W = 0\\X^TX\hat W=X^TY\\\hat W=(X^TX)^{-1}X^TY$
기하학적 해석 또한 동일한 해를 제공한다.

회귀계수의 형태

마지막으로 MSE/MLE/기하학적 해석을 통해 구한 회귀계수의 해를 풀면 어떤 형태인지 확인해보자
독립변수가 2개인 간단한 예시에서 시작해보자
- $y =w_0+w_1x_1+w_2x_2$ $Y_{m,1} = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix},\;X_{m,3} = \begin{pmatrix} 1 & x_{11} & x_{12} \\ 1 & x_{21} & x_{22} \\ \vdots & \vdots & \vdots \\ 1 & x_{m1} & x_{m2} \end{pmatrix},\;W_{3,1}^T = \begin{pmatrix} w_{0} \\ w_{1} \\ w_{2} \end{pmatrix}$
$X^TX = \begin{pmatrix} 1 & 1 & \dots & 1 \\ x_{11} & x_{21} & \dots & x_{m1} \\ x_{12} & x_{22} &\dots& x_{m2} \end{pmatrix}\begin{pmatrix} 1 & x_{11} & x_{12} \\ 1 & x_{21} & x_{22} \\ \vdots & \vdots & \vdots \\ 1 & x_{m1} & x_{m2} \end{pmatrix}=\begin{pmatrix} m & \sum_{i=1}^m x_{i1} & \sum_{i=1}^m x_{i2} \\\;\\ \sum_{i=1}^m x_{i1} & \sum_{i=1}^m x_{i1}^2 & \sum_{i=1}^m x_{i1}x_{i2} \\\;\\ \sum_{i=1}^m x_{i2} & \sum_{i=1}^m x_{i1}x_{i2} & \sum_{i=1}^m x_{i2}^2 \end{pmatrix} \\\;\\=m\begin{pmatrix} 1 & \bar x_1 & \bar x_2 \\ \bar x_1 & \bar {x_1^2} & \bar{x_1x_2} \\ \bar x_2 & \bar{x_1x_2} & \bar {x_2^2} \end{pmatrix}\dots(1)$

$X^TY=\begin{pmatrix} 1 & 1 & \dots & 1 \\ x_{11} & x_{21} & \dots & x_{m1} \\ x_{12} & x_{22} &\dots& x_{m2} \end{pmatrix}\begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix}= \begin{pmatrix} \sum_{i=1}^m y_i \\ \sum_{i=1}^m x_{i1}y_i \\ \sum_{i=1}^m x_{i2}y_i \end{pmatrix}=m\begin{pmatrix} \bar y \\ \bar {x_1y} \\ \bar {x_2y} \end{pmatrix}\dots(2)$

$X^TXW=X^TY$ 에 (1), (2)의 값을 대입한다

$m\begin{pmatrix} 1 & \bar x_1 & \bar x_2 \\ \bar x_1 & \bar {x_1^2} & \bar{x_1x_2} \\ \bar x_2 & \bar{x_1x_2} & \bar {x_2^2} \end{pmatrix}\begin{pmatrix} w_0 \\ w_1 \\ w_2 \end{pmatrix}=m\begin{pmatrix} \bar y \\ \bar {x_1y} \\ \bar {x_2y} \end{pmatrix}$

공분산, 분산식을 사용해 위 행렬을 변환한다

$cov(x_1,x_2)=\sigma_{12}=\bar{x_1x_2}-\bar x_1\bar x_2=\mu_{12}-\mu_{1}\mu_{2}\\∴\bar{x_1x_2}=\sigma_{12}+\mu_{1}\mu_{2}\\Var(x_1)=\sigma_{1}^2=\bar {x_1^2}-\bar x_1^2=\mu_{x_1^2}-\mu_{1}^2\\ ∴\bar {x_1^2} =\sigma_{1}^2+\mu_{1}^2$

\begin{pmatrix} 1 & \mu_1 & \mu_2 \\ \mu_1 & \sigma_{1}^2+\mu_{1}^2 & \sigma_{12}+\mu_{1}\mu_{2} \\ \mu_2 & \sigma_{12}+\mu_{1}\mu_{2} & \sigma_{2}^2+\mu_{2}^2 \end{pmatrix}\begin{pmatrix} w_0 \\ w_1 \\ w_2 \end{pmatrix}=\begin{pmatrix} \mu_y \\ \sigma_{1y}+\mu_1\mu_y \\ \sigma_{2y}+\mu_2\mu_y \end{pmatrix}

행렬곱을 풀어 주면 (a), (b), (c)의 식을 얻을 수 있다

$row 1:w_0+w_1\mu_1+w_2\mu_2=\mu_y\dots(a)$

$row2:\\w_0\mu_1+w_1(\sigma_{1}^2+\mu_{1}^2)+w_2(\sigma_{12}+\mu_{1}\mu_{2})=\sigma_{1y}+\mu_1\mu_y\\\rightarrow w_0\mu_1+w_1\sigma_{1}^2+w_1\mu_{1}^2+w_2\sigma_{12}+w_2\mu_{1}\mu_{2}=\sigma_{1y}+\mu_1\mu_y\\\rightarrow w_1\sigma_{1}^2+w_2\sigma_{12}=\sigma_{1y}+\mu_1\mu_y-w_0\mu_1-w_1\mu_{1}^2-w_2\mu_{1}\mu_{2}\\\rightarrow w_1\sigma_{1}^2+w_2\sigma_{12}=\sigma_{1y}+\mu_1(\mu_y-w_0-w_1\mu_{1}-w_2\mu_{2})\\(a)를\;대입\rightarrow w_1\sigma_{1}^2+w_2\sigma_{12}=\sigma_{1y}\dots(b)$

$row 3:\\ w_0\mu_2+w_1(\sigma_{12}+\mu_{1}\mu_{2})+w_2(\sigma_{2}^2+\mu_{2}^2)=\sigma_{2y}+\mu_2\mu_y\\\rightarrow w_0\mu_2+w_1\sigma_{12}+w_1\mu_{1}\mu_{2}+w_2\sigma_{2}^2+w_2\mu_{2}^2=\sigma_{2y}+\mu_2\mu_y\\\rightarrow w_1\sigma_{12}+w_2\sigma_{2}^2=\sigma_{2y}+\mu_2\mu_y-w_0\mu_2-w_1\mu_{1}\mu_{2}-w_2\mu_{2}^2\\\rightarrow w_1\sigma_{12}+w_2\sigma_{2}^2=\sigma_{2y}+\mu_2(\mu_y-w_0-w_1\mu_{1}-w_2\mu_{2})\\(a)를\;대입\rightarrow w_1\sigma_{12}+w_2\sigma_{2}^2=\sigma_{2y}\dots(c)$

(a), (b), (c)를 사용하여 $w_1, w_2$ 값을 찾아보자

$(b)에서\;w_1=(\sigma_{1y}-w_2\sigma_{12})/\sigma_{1}^2\dots(b.1)\\\;\\(c)에\;(b.1)을\;대입\\(\sigma_{1y}-w_2\sigma_{12})\sigma_{12}/\sigma_{1}^2+w_2\sigma_{2}^2=\sigma_{2y}\\\rightarrow \sigma_{1y}\sigma_{12}-w_2\sigma_{12}^2+w_2\sigma_{1}^2\sigma_{2}^2=\sigma_{2y}\sigma_{1}^2\\\rightarrow w_2(\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2)=\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\\\;\\\rightarrow w_2={\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}\\\;\\(b.1)에 \;w_2를\;대입\\w_1=(\sigma_{1y}-({\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})\sigma_{12})/\sigma_{1}^2\\\;\\\rightarrow w_1=(\sigma_{1y}-{\sigma_{2y}\sigma_{1}^2\sigma_{12}-\sigma_{1y}\sigma^2_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})/\sigma_{1}^2\\\;\\\rightarrow w_1=({\sigma_{1y}\sigma_{1}^2\sigma_{2}^2-\sigma_{1y}\sigma_{12}^2-\sigma_{2y}\sigma_{1}^2\sigma_{12}+\sigma_{1y}\sigma^2_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})/\sigma_{1}^2\\\;\\\rightarrow w_1=({\sigma_{1y}\sigma_{1}^2\sigma_{2}^2-\sigma_{2y}\sigma_{1}^2\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})/\sigma_{1}^2\\\;\\\rightarrow w_1={\sigma_{1y}\sigma_{2}^2-\sigma_{2y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}$

정리하자면, 독립변수가 2개인 경우 회귀계수 $w_1,w_2$ 는 아래와 같다.

$w_1={\sigma_{1y}\sigma_{2}^2-\sigma_{2y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}={Cov(x_1,y)Var(x_2)-Cov(x_2,y)Cov(x_1,x_2)\over{Var(x_1)Var(x_2)-Cov(x_1,x_2)^2}}$

$w_2={\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}={Cov(x_2,y)Var(x_1)-Cov(x_1,y)Cov(x_1,x_2)\over{Var(x_1)Var(x_2)-Cov(x_1,x_2)^2}}$
회귀계수 $w_1$ 는 $X_1$ 이 $Y$ 에 미치는 직접적인 영향( $ONLY \;X_1\rightarrow Y$ )을 나타내야한다. 독립변수 $X_1,X_2$ 사이에 선형적인 상관관계가 있을 경우 $X_2$ 가 $X_1$ 에 영향을 미치게 된다. 즉, $Cov(X_1,X_2)\neq 0$ 인 경우 $X_2$ 가 $X_1$ 에 영향을 주어 $Y$ 에 미치는 간접적인 영향( $X_2\rightarrow X_1\rightarrow Y$ )을 제거해야 우리가 필요로 하는 $w_1$ 을 정확하게 구할 수 있다. 이를 반영한 회귀계수가 위에서 정리한 $w_1,w_2$ 이다.
마찬가지로, 독립 변수가 n개인 경우 i번째 회귀 계수를 구할 때 $X_i$ 를 제외한 나머지 독립 변수들의 영향을 모두 제거해준다.
독립변수 $X_1,X_2$ 사이에 선형적인 상관관계가 없을 경우 $Cov(x_1,x_2)=0$ 이고, 회귀 계수들은 단일 선형 회귀의 그것과 같아진다

$w_1={Cov(x_1,y)Var(x_2)-Cov(x_2,y)*0\over{Var(x_1)Var(x_2)-0}}={Cov(x_1,y)\over Var(x_1)}$

$w_2={Cov(x_2,y)Var(x_1)-Cov(x_1,y) *0 \over{Var(x_1)Var(x_2)-0}}={Cov(x_2,y)\over Var(x_2)}$

한상우

개인 공부용 블로그입니다

이전 포스트

Liner Regression 2

다음 포스트