[단순선형회귀] 회귀계수와 상관계수의 관계

신현호·2022년 4월 30일
1

Machine Learning

목록 보기
2/8
post-custom-banner

지난 포스팅에서는 최소제곱법을 이용한 단순선형회귀의 회귀계수를 구해보았습니다.
https://velog.io/@shh0422/%EB%8B%A8%EC%88%9C%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80-%ED%9A%8C%EA%B7%80%EA%B3%84%EC%88%98-%EC%9C%A0%EB%8F%84%EA%B3%BC%EC%A0%95

이번 포스팅에서는 회귀계수 β1\beta_1(X,Y)(X, Y)의 상관계수 사이의 관계를 탐구해보려고 합니다.

기호 정리

X={x1,x2,x3,... ,xn} \qquad X = \{x_1, x_2, x_3, ... \space, x_n\} \qquad \rightarrow \space 설명변수(독립변수)

Y={y1,y2,y3,... ,yn} \qquad Y = \{y_1, y_2, y_3, ... \space, y_n\} \qquad \rightarrow \space 종속변수

Y^={y1^,y2^,y3^,... ,yn^} \qquad \hat{Y} = \{\hat{y_1}, \hat{y_2}, \hat{y_3}, ... \space, \hat{y_n}\} \qquad \rightarrow \space 회귀모델에 의한 예측값

y^=β0+β1x \qquad \hat{y} = \beta_0 + \beta_1x \qquad\qquad\qquad \rightarrow \space 회귀방정식

V(X) \qquad V(X) \qquad\qquad\qquad\qquad\enspace\enspace \rightarrow \space XX의 분산

σ(X)  \qquad \sigma(X) \qquad\qquad\qquad\qquad\enspace\enspace\space \rightarrow \space XX의 표준편차

Cov(X,Y)  \qquad Cov(X, Y) \qquad\qquad\qquad\enspace\space \rightarrow \space X,YX, Y의 공분산

Coef(X,Y)  \qquad Coef(X, Y) \qquad\qquad\qquad\space \rightarrow \space X,YX, Y의 상관계수


Remind

단순선형회귀의 정규방정식

yinβ0β1xi=0\qquad \sum{y_i} - n\beta_0 - \beta_1\sum{x_i} = 0

xiyiβ0xiβ1xi2=0\qquad \sum{x_iy_i} - \beta_0\sum{x_i} - \beta_1\sum{x_i^2} = 0

회귀계수

β1=(xixˉ)(yiyˉ)(xixˉ)2\qquad \beta_1 = \dfrac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sum{(x_i - \bar{x})^2}}

β0=yˉβ1xˉ\qquad \beta_0 = \bar{y} - \beta_1\bar{x}


회귀계수와 상관계수의 관계

β1=(xixˉ)(yiyˉ)(xixˉ)2\qquad \beta_1 = \dfrac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sum{(x_i - \bar{x})^2}}

에서 분자의 형태가 어딘가 익숙합니다. 공분산 구할 때 봤던 것 같기도 하고...
분자와 분모를 nn으로 나눠보면

β1=(xixˉ)(yiyˉ)n(xixˉ)2n\qquad \beta_1 = \dfrac{ \dfrac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{n} }{ \dfrac{\sum{(x_i - \bar{x})^2}}{n} }

분자는 X,YX, Y의 공분산, 분모는 XX의 분산이죠. 즉,

β1=Cov(X,Y)V(X)=Cov(X,Y)σ(X)2\qquad \beta_1 = \dfrac{Cov(X, Y)}{V(X)} = \dfrac{Cov(X, Y)}{\sigma(X)^2}

인 셈입니다.

β1\beta_1 이 공분산과 관련있으므로 당연히 상관계수와도 관련이 있겠죠?

정확히 어떤 관련이 있는지 수식을 통해 알아보겠습니다.

Coef(X,Y)=Cov(X,Y)σ(X)σ(Y)=Cov(X,Y)σ(X)2×σ(X)σ(Y)=β1×σ(X)σ(Y)\qquad Coef(X, Y) = \dfrac{Cov(X, Y)}{\sigma(X)\sigma(Y)} = \dfrac{Cov(X, Y)}{\sigma(X)^2} \times \dfrac{\sigma(X)}{\sigma(Y)} = \beta_1 \times \dfrac{\sigma(X)}{\sigma(Y)}

X,YX, Y의 상관계수는 β1\beta_1YY의 표준편차에 대한 XX의 표준편차의 비율을 곱한 것과 같습니다.


이번 포스팅에서는 상관계수와 회귀계수의 관계에 대해 알아보았는데요.
상관계수는 회귀모델에서 등장하는 몇몇 값들과 굉장히 긴밀한 연관을 가지고 있습니다.

예를 들어 오늘 나온 회귀계수나 회귀모델의 평가지표인 결정계수 R2R^2 같은 값들과 말이죠.

다음 포스팅에서는 상관계수와 R2R^2의 관계에 대해 알아보겠습니다.

감사합니다.


다음 포스팅
https://velog.io/@shh0422/%EB%8B%A8%EC%88%9C%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80-SST-SSR-SSE-%EC%84%B1%EB%A6%BD-%EC%A1%B0%EA%B1%B4%EA%B3%BC-%EC%A6%9D%EB%AA%85

profile
수학요정니모
post-custom-banner

0개의 댓글