지난 포스팅에서는 최소제곱법을 이용한 단순선형회귀의 회귀계수를 구해보았습니다.
https://velog.io/@shh0422/%EB%8B%A8%EC%88%9C%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80-%ED%9A%8C%EA%B7%80%EA%B3%84%EC%88%98-%EC%9C%A0%EB%8F%84%EA%B3%BC%EC%A0%95
이번 포스팅에서는 회귀계수 β1과 (X,Y)의 상관계수 사이의 관계를 탐구해보려고 합니다.
기호 정리
X={x1,x2,x3,... ,xn}→ 설명변수(독립변수)
Y={y1,y2,y3,... ,yn}→ 종속변수
Y^={y1^,y2^,y3^,... ,yn^}→ 회귀모델에 의한 예측값
y^=β0+β1x→ 회귀방정식
V(X)→ X의 분산
σ(X) → X의 표준편차
Cov(X,Y) → X,Y의 공분산
Coef(X,Y) → X,Y의 상관계수
Remind
단순선형회귀의 정규방정식
∑yi−nβ0−β1∑xi=0
∑xiyi−β0∑xi−β1∑xi2=0
회귀계수
β1=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ)
β0=yˉ−β1xˉ
회귀계수와 상관계수의 관계
β1=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ)
에서 분자의 형태가 어딘가 익숙합니다. 공분산 구할 때 봤던 것 같기도 하고...
분자와 분모를 n으로 나눠보면
β1=n∑(xi−xˉ)2n∑(xi−xˉ)(yi−yˉ)
분자는 X,Y의 공분산, 분모는 X의 분산이죠. 즉,
β1=V(X)Cov(X,Y)=σ(X)2Cov(X,Y)
인 셈입니다.
β1 이 공분산과 관련있으므로 당연히 상관계수와도 관련이 있겠죠?
정확히 어떤 관련이 있는지 수식을 통해 알아보겠습니다.
Coef(X,Y)=σ(X)σ(Y)Cov(X,Y)=σ(X)2Cov(X,Y)×σ(Y)σ(X)=β1×σ(Y)σ(X)
즉 X,Y의 상관계수는 β1에 Y의 표준편차에 대한 X의 표준편차의 비율을 곱한 것과 같습니다.
이번 포스팅에서는 상관계수와 회귀계수의 관계에 대해 알아보았는데요.
상관계수는 회귀모델에서 등장하는 몇몇 값들과 굉장히 긴밀한 연관을 가지고 있습니다.
예를 들어 오늘 나온 회귀계수나 회귀모델의 평가지표인 결정계수 R2 같은 값들과 말이죠.
다음 포스팅에서는 상관계수와 R2의 관계에 대해 알아보겠습니다.
감사합니다.
다음 포스팅
https://velog.io/@shh0422/%EB%8B%A8%EC%88%9C%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80-SST-SSR-SSE-%EC%84%B1%EB%A6%BD-%EC%A1%B0%EA%B1%B4%EA%B3%BC-%EC%A6%9D%EB%AA%85