Linear Regression 3

한상우·2024년 8월 18일

스터디

목록 보기
3/23

Bias-variance decomposition

  • Bias-variance decomposition(편향-분산 분해)를 사용하여 실제값과 예측값의 차이(예측 오차)를 구성하는 세 가지 요소를 찾아보자

  • 사용할 표기법을 정리하면 아래와 같다

    표기설명
    f(x)f(x)실제값, true function
    y=f(x)+ϵy=f(x)+\epsilon노이즈가 포함된 실제값, oberved value
    h(x)h(x)모델에 의해 추정된 예측 함수, predicted function
    hˉ(x)\bar h(x)예측 함수의 기대값, expected prediction
    Ep[(yh(x))2E_p[(y-h(x))^2|x]x]조건부 평균 제곱 오차, conditional MSE

    Ep[(yh(x))2x]=Ep[h(x)22yh(x)+y2x]=Ep[h(x)2x]2Ep[yx]Ep[h(x)x]+Ep[y2x]=Ep[h(x)2x]2f(x)hˉ(x)+Ep[y2x](1)  Ep[h(x)2x]=Ep[(h(x)hˉ(x))2x]+hˉ(x)2(2)  Ep[y2x]=Ep[(yf(x))2x]+f(x)2(3)E_p[(y-h(x))^2|x]=E_p[h(x)^2 -2yh(x)+y^2|x]\\=E_p[h(x)^2|x] -2E_p[y|x]E_p[h(x)|x]+E_p[y^2|x] \\ =E_p[h(x)^2|x] -2f(x)\bar h(x)+E_p[y^2|x]\dots(1) \\\; \\E_p[h(x)^2|x] = E_p[(h(x)-\bar h(x))^2|x]+\bar h(x)^2 \dots (2)\\ \; \\E_p[y^2|x]=E_p[(y-f(x))^2|x] + f(x)^2\dots(3)

    (2), (3)을 (1)에 대입하면

    Ep[(yh(x))2x]=Ep[(h(x)hˉ(x))2x]+hˉ(x)22f(x)hˉ(x)+Ep[(yf(x))2x]+f(x)2  Ep[(h(x)hˉ(x))2x]Var(h(x))(f(x)hˉ(x))2bias2E[(yf(x))2x]noise  Ep[(yh(x))2x]=Var(h(x))+bias2+noiseE_p[(y-h(x))^2|x]\\=E_p[(h(x)-\bar h(x))^2|x]+\bar h(x)^2-2f(x)\bar h(x) + E_p[(y-f(x))^2|x] + f(x)^2\\ \;\\E_p[(h(x)-\bar h(x))^2|x] \rightarrow Var(h(x)) \\(f(x)-\bar h(x))^2 \rightarrow bias^2 \\E[(y-f(x))^2|x]\rightarrow noise \\ \; \\ ∴ E_p[(y-h(x))^2|x] = Var(h(x))+bias^2+noise


  • Var(h(x))Var(h(x)) : 추정값 자체의 분산. 추정계수들과 절편의 분산과 비례한다
    Var(h(x))=Var(β0)+x12Var(β1)++xn2Var(βn)Var(h(x)) = Var(\beta_0) + x_1^2Var(\beta_1) + \dots + x_n^2Var(\beta_n)
  • biasbias : 실제값(f(x)f(x))과 모델의 평균 예측값(hˉ(x))\bar h(x))의 차이를 나타낸다.
    • biasbias가 높은 경우 : 복잡한 비선형 관계를 가진 데이터를 linear regression 모델로 학습할 경우 bias가 높다(선형 회귀 분석의 가정 중 선형성에 위배되는 경우). 모델이 데이터의 복잡한 패턴을 제대로 학습하지 못하고 지나치게 단순화된 예측을 해 underfitting 문제가 발생한다.
    • biasbias가 낮은 경우 : 모델이 실제 데이터의 패턴을 잘 학습하고 있다는 것을 의미한다. 하지만 이 경우, 모델이 데이터의 noise까지 학습하는 overfitting의 가능성을 생각해야 한다.

  • noisenoise : 데이터 자체에 내재된 변동성을 의미하며, 이는 종속 변수 y와 실제 함수 f(x)간의 근본적인 차이에서 비롯된다. 이 변동성은 데이터에 포함된 랜덤한 오차나 잡음으로, 모델이 학습을 통해 극복할 수 없는 요소이다.

OLS Matrix From

  • 다중 선형 회귀 모델은 아래와 같이 표현 가능하다
    y=w0+w1x1+w2x2++wnxn+ϵy = w_0 + w_1x_1 + w_2x_2 + \dots + w_nx_n + \epsilon

    종속 변수의 벡터 Y, 독립변수의 행렬 X, 회귀 계수의 벡터 W는 다음과 같다

Ym,1=(y1y2ym),  Xm,n+1=(1x11x1n1x21x2n1xm1xmn),  Wn+1,1T=(w0w1wn)Y_{m,1} = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix},\;X_{m,n+1} = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1n} \\ 1 & x_{21} & \cdots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & \cdots & x_{mn} \end{pmatrix},\;W_{n+1,1}^T = \begin{pmatrix} w_{0} \\ w_{1} \\ \vdots \\ w_{n} \end{pmatrix}
  • 선형 회귀 모델은 Y=XW+ϵY=XW+\epsilon로 표현 가능하다

  • OLS의 목표는 ϵ\epsilon의 제곱합을 최소화하여 WW의 추정값을 알아내는 것이다
    L(W)=i=1mϵi2=(YXW)T(YXW)    Loss  FunctionL(W)=\sum_{i=1}^m \epsilon_i^2=(Y-XW)^T(Y-XW)\;\dots\;Loss\;Function

    L(W)L(W)를 전개(1)하고 편미분(2)해 0이 되는 값이 ϵ\epsilon의 제곱합의 최솟값이 된다
    L(W)=YTYYTXWWTXTY+WTXTXW(1)S(W)W=yTX(XTY)T+(WTXTX+(XTXW)T)=2YTX+2WTXTX2YTX+2WTXTX=0(2)L(W) = Y^TY-Y^TXW-W^TX^TY+W^TX^TXW\dots(1)\\{\partial S(W)\over \partial W} =-y^TX -(X^TY)^T+ (W^TX^TX+(X^TXW)^T)\\= -2Y^TX+2W^TX^TX\\-2Y^TX+2W^TX^TX=0\dots(2)

    (2)를 WW에 대해 정리해준다
    WTXTX=YTXWT=YTX(XTX)1W=(XTX)1XTYW^TX^TX=Y^TX\\W^T=Y^TX(X^TX)^{-1}\\W=(X^TX)^{-1}X^TY


  • 위에서 구한 W는 다음과 같은 특징을 갖는다
    • 유일성: OLS 해는 W=(XTX)1XTyW = (X^TX)^{-1}X^Ty로 표현되며, 이는 det(XTX)0det(X^TX) \neq 0일 경우(역행렬을 가질 경우) 유일하다.
    • 시간복잡도 : (XTX)(X^TX)의 역행렬을 계산하는 과정이 가장 비용이 크기 때문에 일반적으로 O(n3)O(n^3)이다.

선형 회귀 : 확률적 접근

  • 지금까지 살펴 본 OLS의 경우는 deterministic approach이다. 이번에는 선형 회귀 모델을 probabilistic approach로 살펴보자.

  • probabilistic approach에서는 데이터가 확률 분포에서 발생한다고 가정하고, 이를 기반으로 회귀 계수를 추정한다(=MLE)


  • 선형 회귀 모델은 다음과 같이 가정한다

    yi=xiTβ+ϵiy_i=x_i^T\beta+\epsilon_i

    • yiy_i : 확률적으로 발현된 종속 변수 (scalar)
    • xix_i : i번째 데이터 포인트의 독립 변수 벡터 (n x 1)
    • β\beta : 회귀 계수 벡터 (n x 1)
    • ϵi\epsilon_i : 독립적이고 동일하게 분포된(i.i.d.) 정규분포 N(0,σ2)N(0,\sigma^2)를 따르는 오차 항 (scalar)
  • 이 가정 아래에 yiN(xiTβ,σ2)y_i \sim N(x_i^T\beta,\sigma^2)가 성립한다

  • MLE를 적용해 주어진 데이터가 관측될 확률을 최대화하는 β\beta를 찾는다.

    우도함수는 다음과 같다
    L(β,σ2)=i=1mP(yixi;β,σ2)L(\beta,\sigma^2)= \prod_{i=1}^m P(y_i|x_i;\beta,\sigma^2)

    yiN(xiTβ,σ2)y_i \sim N(x_i^T\beta,\sigma^2)이므로, 우도함수를 아래와 같이 표현 가능하다
    L(β,σ2)=i=1m12πσ2exp((yixiTβ)22σ2)L(\beta,\sigma^2)= \prod_{i=1}^m {1\over{\sqrt{2\pi\sigma^2}}}exp(-{(y_i-x_i^T\beta)^2\over 2\sigma^2})

    계산의 편의성을 위해 로그 우도 함수를 사용한다
    (β,σ2)=m2log(2πσ2)12σ2i=1m(yixiTβ)2ℓ(\beta,\sigma^2) = -{m\over 2}log(2\pi\sigma^2)-{1\over{2\sigma^2}}\sum_{i=1}^m(y_i-x_i^T\beta)^2

    로그 우도 함수를 β\beta에 대해 편미분(1)하고, 그 결과를 0으로 설정(2)하면 우도가 최대화 된다

    (β,σ2)β=12σ2i=1m2(yixiTβ)(xi)=1σ2i=1mxi(yixiTβ)=1σ2[x1(y1x1Tβ)]++[xm(ymxmTβ)]=1σ2XT(YXβ)(1)  whereYm,1=(y1y2ym),  Xm,n=(x1Tx2TxmT)  ,Xn,mT=(x1  x2xm)  ,Xβm,1=(x1Tβx2TβxmTβ)  1σ2XT(YXβ)=0(2){\partial ℓ(\beta,\sigma^2)\over \partial \beta} =-{1\over{2\sigma^2}}\sum_{i=1}^m 2(y_i-x_i^T\beta)(-x_i)\\ ={1\over{\sigma^2}}\sum_{i=1}^m x_i(y_i-x_i^T\beta)\\ ={1\over \sigma^2}[x_1(y_1-x_1^T\beta)]+\dots+[x_m(y_m-x_m^T\beta)]\\= {1\over \sigma^2}X^T(Y-X\beta)\dots(1)\\\;\\ where \\ Y_{m,1}=\begin{pmatrix}y_1\\y_2\\\vdots\\ y_m\end{pmatrix},\; X_{m,n}=\begin{pmatrix}x_1^T\\x_2^T\\\vdots\\ x_m^T\end{pmatrix}\;, X^T_{n,m} =\begin{pmatrix}x_1\;x_2\dots x_m\end{pmatrix}\;, X\beta_{m,1}=\begin{pmatrix}x_1^T\beta\\x_2^T\beta\\\vdots\\ x_m^T\beta\end{pmatrix}\\\;\\{1\over \sigma^2}X^T(Y-X\beta)=0\dots(2)

    (2)를 β\beta에 대해서 정리해준다
    XTYXTXβ=0XTXβ=XTYβ=(XTX)1XTYX^TY-X^TX\beta=0\\X^TX\beta=X^TY\\\beta=(X^TX)^{-1}X^TY

  • MLE를 통한 회귀 계수의 추정은 OLS와 동일한 해를 제공한다

선형 회귀의 기하학적 해석

  • 우선 간단한 예시(독립 변수 2개, R3\mathbb R^3, 절편 = 0)인 Y=XWY=XW를 생각해보자

  • 종속 변수 YYx1,x2x_1,x_2의 선형 결합으로 표현하는 것은 YY를 (x1,x2x_1,x_2)가 형성하는 평면의 한 점으로 나타낸다는 의미이다.

    (y1y2y3)=(x11x12x13)w1+(x21x22x23)w2\begin{pmatrix}y_1\\y_2\\ y_3\end{pmatrix}=\begin{pmatrix}x_{11}\\x_{12}\\ x_{13}\end{pmatrix}w_1+\begin{pmatrix}x_{21}\\x_{22}\\ x_{23}\end{pmatrix}w_2

  • 이는 3차원 벡터 YYXX의 Column Space로 투영하여 Y^\hat Y를 구하는 것과 동일하다. 이때 W^=(w1w2)\hat W=\begin{pmatrix}w_1\\w_2\end{pmatrix}C(X)C(X)(YY^)(Y - \hat{Y})가 직교하도록 해주는 벡터이다.

  • 선형 회귀의 기하학적 해석을 일반화(데이터 row수 m, 독립변수 n개)하면 다음과 같다

    • Rm\mathbb R^m 공간의 벡터 YYRnR^n공간의 C(X)C(X)에 최소 거리로 투영(최소 오차 근사)한 벡터 Y^\hat Y을 구하는 것.
    • 이때, Y^=XW^\hat{Y} = X \hat{W}이고, W^\hat W는 잔차 벡터 (YY^)(Y - \hat{Y})C(X)C(X)와 직교하도록 하는 회귀 계수 벡터이다.
  • W^\hat W를 구하는 과정은 아래와 같다

    C(X)C(X)와 잔차 벡터(YY^)(Y - \hat{Y})가 직교해야 하므로 C(X)C(X)의 기저인 (X1,X2,Xn)X_1, X_2,\dots X_n)과 잔차 벡터가 모두 직교해야 한다

    X1T(YY^)=0,X2T(YY^)=0,        XnT(YY^)=0  XT(YXW^)=0X_1^T(Y-\hat Y) = 0,\\X_2^T(Y-\hat Y) = 0,\\ \qquad\;\;\;\;\vdots\\X_n^T(Y-\hat Y) = 0\\\;\\∴X^T(Y-X\hat W)=0

    위 식을 전개하고 W^\hat W에 대해 정리해준다

    XTYXTXW^=0XTXW^=XTYW^=(XTX)1XTYX^TY-X^TX\hat W = 0\\X^TX\hat W=X^TY\\\hat W=(X^TX)^{-1}X^TY

  • 기하학적 해석 또한 동일한 해를 제공한다.

회귀계수의 형태

  • 마지막으로 MSE/MLE/기하학적 해석을 통해 구한 회귀계수의 해를 풀면 어떤 형태인지 확인해보자

  • 독립변수가 2개인 간단한 예시에서 시작해보자

    • y=w0+w1x1+w2x2y =w_0+w_1x_1+w_2x_2
      Ym,1=(y1y2ym),  Xm,3=(1x11x121x21x221xm1xm2),  W3,1T=(w0w1w2)Y_{m,1} = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix},\;X_{m,3} = \begin{pmatrix} 1 & x_{11} & x_{12} \\ 1 & x_{21} & x_{22} \\ \vdots & \vdots & \vdots \\ 1 & x_{m1} & x_{m2} \end{pmatrix},\;W_{3,1}^T = \begin{pmatrix} w_{0} \\ w_{1} \\ w_{2} \end{pmatrix}
    XTX=(111x11x21xm1x12x22xm2)(1x11x121x21x221xm1xm2)=(mi=1mxi1i=1mxi2  i=1mxi1i=1mxi12i=1mxi1xi2  i=1mxi2i=1mxi1xi2i=1mxi22)  =m(1xˉ1xˉ2xˉ1x12ˉx1x2ˉxˉ2x1x2ˉx22ˉ)(1)X^TX = \begin{pmatrix} 1 & 1 & \dots & 1 \\ x_{11} & x_{21} & \dots & x_{m1} \\ x_{12} & x_{22} &\dots& x_{m2} \end{pmatrix}\begin{pmatrix} 1 & x_{11} & x_{12} \\ 1 & x_{21} & x_{22} \\ \vdots & \vdots & \vdots \\ 1 & x_{m1} & x_{m2} \end{pmatrix}=\begin{pmatrix} m & \sum_{i=1}^m x_{i1} & \sum_{i=1}^m x_{i2} \\\;\\ \sum_{i=1}^m x_{i1} & \sum_{i=1}^m x_{i1}^2 & \sum_{i=1}^m x_{i1}x_{i2} \\\;\\ \sum_{i=1}^m x_{i2} & \sum_{i=1}^m x_{i1}x_{i2} & \sum_{i=1}^m x_{i2}^2 \end{pmatrix} \\\;\\=m\begin{pmatrix} 1 & \bar x_1 & \bar x_2 \\ \bar x_1 & \bar {x_1^2} & \bar{x_1x_2} \\ \bar x_2 & \bar{x_1x_2} & \bar {x_2^2} \end{pmatrix}\dots(1)
    XTY=(111x11x21xm1x12x22xm2)(y1y2ym)=(i=1myii=1mxi1yii=1mxi2yi)=m(yˉx1yˉx2yˉ)(2)X^TY=\begin{pmatrix} 1 & 1 & \dots & 1 \\ x_{11} & x_{21} & \dots & x_{m1} \\ x_{12} & x_{22} &\dots& x_{m2} \end{pmatrix}\begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix}= \begin{pmatrix} \sum_{i=1}^m y_i \\ \sum_{i=1}^m x_{i1}y_i \\ \sum_{i=1}^m x_{i2}y_i \end{pmatrix}=m\begin{pmatrix} \bar y \\ \bar {x_1y} \\ \bar {x_2y} \end{pmatrix}\dots(2)

    XTXW=XTYX^TXW=X^TY에 (1), (2)의 값을 대입한다

    m(1xˉ1xˉ2xˉ1x12ˉx1x2ˉxˉ2x1x2ˉx22ˉ)(w0w1w2)=m(yˉx1yˉx2yˉ)m\begin{pmatrix} 1 & \bar x_1 & \bar x_2 \\ \bar x_1 & \bar {x_1^2} & \bar{x_1x_2} \\ \bar x_2 & \bar{x_1x_2} & \bar {x_2^2} \end{pmatrix}\begin{pmatrix} w_0 \\ w_1 \\ w_2 \end{pmatrix}=m\begin{pmatrix} \bar y \\ \bar {x_1y} \\ \bar {x_2y} \end{pmatrix}

공분산, 분산식을 사용해 위 행렬을 변환한다

cov(x1,x2)=σ12=x1x2ˉxˉ1xˉ2=μ12μ1μ2x1x2ˉ=σ12+μ1μ2Var(x1)=σ12=x12ˉxˉ12=μx12μ12x12ˉ=σ12+μ12cov(x_1,x_2)=\sigma_{12}=\bar{x_1x_2}-\bar x_1\bar x_2=\mu_{12}-\mu_{1}\mu_{2}\\∴\bar{x_1x_2}=\sigma_{12}+\mu_{1}\mu_{2}\\Var(x_1)=\sigma_{1}^2=\bar {x_1^2}-\bar x_1^2=\mu_{x_1^2}-\mu_{1}^2\\ ∴\bar {x_1^2} =\sigma_{1}^2+\mu_{1}^2

(1μ1μ2μ1σ12+μ12σ12+μ1μ2μ2σ12+μ1μ2σ22+μ22)(w0w1w2)=(μyσ1y+μ1μyσ2y+μ2μy)\begin{pmatrix} 1 & \mu_1 & \mu_2 \\ \mu_1 & \sigma_{1}^2+\mu_{1}^2 & \sigma_{12}+\mu_{1}\mu_{2} \\ \mu_2 & \sigma_{12}+\mu_{1}\mu_{2} & \sigma_{2}^2+\mu_{2}^2 \end{pmatrix}\begin{pmatrix} w_0 \\ w_1 \\ w_2 \end{pmatrix}=\begin{pmatrix} \mu_y \\ \sigma_{1y}+\mu_1\mu_y \\ \sigma_{2y}+\mu_2\mu_y \end{pmatrix}

행렬곱을 풀어 주면 (a), (b), (c)의 식을 얻을 수 있다

row1:w0+w1μ1+w2μ2=μy(a)row 1:w_0+w_1\mu_1+w_2\mu_2=\mu_y\dots(a)

row2:w0μ1+w1(σ12+μ12)+w2(σ12+μ1μ2)=σ1y+μ1μyw0μ1+w1σ12+w1μ12+w2σ12+w2μ1μ2=σ1y+μ1μyw1σ12+w2σ12=σ1y+μ1μyw0μ1w1μ12w2μ1μ2w1σ12+w2σ12=σ1y+μ1(μyw0w1μ1w2μ2)(a)  대입w1σ12+w2σ12=σ1y(b)row2:\\w_0\mu_1+w_1(\sigma_{1}^2+\mu_{1}^2)+w_2(\sigma_{12}+\mu_{1}\mu_{2})=\sigma_{1y}+\mu_1\mu_y\\\rightarrow w_0\mu_1+w_1\sigma_{1}^2+w_1\mu_{1}^2+w_2\sigma_{12}+w_2\mu_{1}\mu_{2}=\sigma_{1y}+\mu_1\mu_y\\\rightarrow w_1\sigma_{1}^2+w_2\sigma_{12}=\sigma_{1y}+\mu_1\mu_y-w_0\mu_1-w_1\mu_{1}^2-w_2\mu_{1}\mu_{2}\\\rightarrow w_1\sigma_{1}^2+w_2\sigma_{12}=\sigma_{1y}+\mu_1(\mu_y-w_0-w_1\mu_{1}-w_2\mu_{2})\\(a)를\;대입\rightarrow w_1\sigma_{1}^2+w_2\sigma_{12}=\sigma_{1y}\dots(b)

row3:w0μ2+w1(σ12+μ1μ2)+w2(σ22+μ22)=σ2y+μ2μyw0μ2+w1σ12+w1μ1μ2+w2σ22+w2μ22=σ2y+μ2μyw1σ12+w2σ22=σ2y+μ2μyw0μ2w1μ1μ2w2μ22w1σ12+w2σ22=σ2y+μ2(μyw0w1μ1w2μ2)(a)  대입w1σ12+w2σ22=σ2y(c)row 3:\\ w_0\mu_2+w_1(\sigma_{12}+\mu_{1}\mu_{2})+w_2(\sigma_{2}^2+\mu_{2}^2)=\sigma_{2y}+\mu_2\mu_y\\\rightarrow w_0\mu_2+w_1\sigma_{12}+w_1\mu_{1}\mu_{2}+w_2\sigma_{2}^2+w_2\mu_{2}^2=\sigma_{2y}+\mu_2\mu_y\\\rightarrow w_1\sigma_{12}+w_2\sigma_{2}^2=\sigma_{2y}+\mu_2\mu_y-w_0\mu_2-w_1\mu_{1}\mu_{2}-w_2\mu_{2}^2\\\rightarrow w_1\sigma_{12}+w_2\sigma_{2}^2=\sigma_{2y}+\mu_2(\mu_y-w_0-w_1\mu_{1}-w_2\mu_{2})\\(a)를\;대입\rightarrow w_1\sigma_{12}+w_2\sigma_{2}^2=\sigma_{2y}\dots(c)


  • (a), (b), (c)를 사용하여 w1,w2w_1, w_2값을 찾아보자

    (b)에서  w1=(σ1yw2σ12)/σ12(b.1)  (c)  (b.1)  대입(σ1yw2σ12)σ12/σ12+w2σ22=σ2yσ1yσ12w2σ122+w2σ12σ22=σ2yσ12w2(σ12σ22σ122)=σ2yσ12σ1yσ12  w2=σ2yσ12σ1yσ12σ12σ22σ122  (b.1)  w2  대입w1=(σ1y(σ2yσ12σ1yσ12σ12σ22σ122)σ12)/σ12  w1=(σ1yσ2yσ12σ12σ1yσ122σ12σ22σ122)/σ12  w1=(σ1yσ12σ22σ1yσ122σ2yσ12σ12+σ1yσ122σ12σ22σ122)/σ12  w1=(σ1yσ12σ22σ2yσ12σ12σ12σ22σ122)/σ12  w1=σ1yσ22σ2yσ12σ12σ22σ122(b)에서\;w_1=(\sigma_{1y}-w_2\sigma_{12})/\sigma_{1}^2\dots(b.1)\\\;\\(c)에\;(b.1)을\;대입\\(\sigma_{1y}-w_2\sigma_{12})\sigma_{12}/\sigma_{1}^2+w_2\sigma_{2}^2=\sigma_{2y}\\\rightarrow \sigma_{1y}\sigma_{12}-w_2\sigma_{12}^2+w_2\sigma_{1}^2\sigma_{2}^2=\sigma_{2y}\sigma_{1}^2\\\rightarrow w_2(\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2)=\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\\\;\\\rightarrow w_2={\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}\\\;\\(b.1)에 \;w_2를\;대입\\w_1=(\sigma_{1y}-({\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})\sigma_{12})/\sigma_{1}^2\\\;\\\rightarrow w_1=(\sigma_{1y}-{\sigma_{2y}\sigma_{1}^2\sigma_{12}-\sigma_{1y}\sigma^2_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})/\sigma_{1}^2\\\;\\\rightarrow w_1=({\sigma_{1y}\sigma_{1}^2\sigma_{2}^2-\sigma_{1y}\sigma_{12}^2-\sigma_{2y}\sigma_{1}^2\sigma_{12}+\sigma_{1y}\sigma^2_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})/\sigma_{1}^2\\\;\\\rightarrow w_1=({\sigma_{1y}\sigma_{1}^2\sigma_{2}^2-\sigma_{2y}\sigma_{1}^2\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}})/\sigma_{1}^2\\\;\\\rightarrow w_1={\sigma_{1y}\sigma_{2}^2-\sigma_{2y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}


  • 정리하자면, 독립변수가 2개인 경우 회귀계수 w1,w2w_1,w_2는 아래와 같다.

    w1=σ1yσ22σ2yσ12σ12σ22σ122=Cov(x1,y)Var(x2)Cov(x2,y)Cov(x1,x2)Var(x1)Var(x2)Cov(x1,x2)2w_1={\sigma_{1y}\sigma_{2}^2-\sigma_{2y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}={Cov(x_1,y)Var(x_2)-Cov(x_2,y)Cov(x_1,x_2)\over{Var(x_1)Var(x_2)-Cov(x_1,x_2)^2}}

    w2=σ2yσ12σ1yσ12σ12σ22σ122=Cov(x2,y)Var(x1)Cov(x1,y)Cov(x1,x2)Var(x1)Var(x2)Cov(x1,x2)2w_2={\sigma_{2y}\sigma_{1}^2-\sigma_{1y}\sigma_{12}\over {\sigma_{1}^2\sigma_{2}^2-\sigma_{12}^2}}={Cov(x_2,y)Var(x_1)-Cov(x_1,y)Cov(x_1,x_2)\over{Var(x_1)Var(x_2)-Cov(x_1,x_2)^2}}

  • 회귀계수 w1w_1X1X_1YY에 미치는 직접적인 영향(ONLY  X1YONLY \;X_1\rightarrow Y)을 나타내야한다. 독립변수 X1,X2X_1,X_2 사이에 선형적인 상관관계가 있을 경우 X2X_2X1X_1에 영향을 미치게 된다. 즉, Cov(X1,X2)0Cov(X_1,X_2)\neq 0인 경우 X2X_2X1X_1에 영향을 주어 YY에 미치는 간접적인 영향(X2X1YX_2\rightarrow X_1\rightarrow Y)을 제거해야 우리가 필요로 하는 w1w_1을 정확하게 구할 수 있다. 이를 반영한 회귀계수가 위에서 정리한 w1,w2w_1,w_2이다.

  • 마찬가지로, 독립 변수가 n개인 경우 i번째 회귀 계수를 구할 때 XiX_i를 제외한 나머지 독립 변수들의 영향을 모두 제거해준다.

  • 독립변수 X1,X2X_1,X_2 사이에 선형적인 상관관계가 없을 경우 Cov(x1,x2)=0Cov(x_1,x_2)=0이고, 회귀 계수들은 단일 선형 회귀의 그것과 같아진다

    w1=Cov(x1,y)Var(x2)Cov(x2,y)0Var(x1)Var(x2)0=Cov(x1,y)Var(x1)w_1={Cov(x_1,y)Var(x_2)-Cov(x_2,y)*0\over{Var(x_1)Var(x_2)-0}}={Cov(x_1,y)\over Var(x_1)}

    w2=Cov(x2,y)Var(x1)Cov(x1,y)0Var(x1)Var(x2)0=Cov(x2,y)Var(x2)w_2={Cov(x_2,y)Var(x_1)-Cov(x_1,y) *0 \over{Var(x_1)Var(x_2)-0}}={Cov(x_2,y)\over Var(x_2)}


profile
개인 공부용 블로그입니다

0개의 댓글