[단순선형회귀] 결정계수 = 상관계수^2 증명

신현호·2022년 4월 30일
0

Machine Learning

목록 보기
4/8

지난 포스팅에서는 최소제곱법을 이용한 선형회귀에서 SST=SSR+SSESST = SSR + SSE 임을 증명했습니다
https://velog.io/@shh0422/%EB%8B%A8%EC%88%9C%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80-SST-SSR-SSE-%EC%84%B1%EB%A6%BD-%EC%A1%B0%EA%B1%B4%EA%B3%BC-%EC%A6%9D%EB%AA%85

이번 포스팅에서는 마찬가지로 최소제곱법을 이용한 선형회귀에서 결정계수 R2R^2이 상관계수 rr의 제곱과 같음을 보이도록 하겠습니다.


결정계수 R2R^2

결정계수는 회귀모델의 성능을 평가하는 지표 중 하나로 다음과 같이 정의됩니다.

R2=1(yiyi^)2(yiyˉ)2\qquad R^2 = 1 - \dfrac{\sum{(y_i - \hat{y_i})^2}}{\sum{(y_i - \bar{y})^2}}

위 식에서
분모에 있는 (yiyˉ)2\sum{(y_i - \bar{y})^2} 는 예측을 무지성 평균으로 했을 때의 잔차제곱합으로 생각할 수 있고
분자에 있는 (yiyi^)2\sum{(y_i - \hat{y_i})^2} 는 회귀모델로 예측했을 때의 잔차제곱합입니다.

즉,

R2=1회귀모델의 잔차제곱 합기준모델의 잔차제곱 합R^2 = 1 - \dfrac{회귀모델의 \space 잔차제곱 \space 합}{기준모델의 \space 잔차제곱 \space 합}

이 됩니다. (여기서 기준모델은 예측을 무조건 평균으로만 하는 모델로 생각했습니다)

이것의 의미를 생각해보면 1에서 기준모델에 대한 회귀모델의 에러 비율을 빼준 것입니다.
기준모델과 비교했을 때 회귀모델이 얼마나 뛰어난지를 나타내는 지표로 생각할 수 있는 것이죠.

전 포스트에서 다룬 SST,SSR,SSESST, SSR, SSE 를 이용하여 표기하면

R2=1SSRSST\qquad R^2 = 1 - \dfrac{SSR}{SST}

입니다. (전 포스트에서도 언급했지만 책마다 SSE,SSRSSE, SSR 을 바꾸어 표기한다는 것은 주의!)

그런데 최소제곱법을 이용한 선형회귀에서는 SST=SSR+SSESST = SSR + SSE 이므로 다음 식이 성립합니다.

R2=1SSRSST=SSTSSRSST=SSESST=(yi^yˉ)2(yiyˉ)2\qquad R^2 = 1 - \dfrac{SSR}{SST} = \dfrac{SST - SSR}{SST} = \dfrac{SSE}{SST} = \dfrac{\sum{(\hat{y_i} - \bar{y})^2}}{\sum{(y_i - \bar{y})^2}}


결정계수 = 상관계수2^2

최종적으로 보이고 싶은 것은 결정계수 R2R^2(X,Y)(X, Y)의 상관계수의 제곱과 같다는 사실입니다.

이를 보이기 위해 다음 두 사실을 증명할 것입니다.

Coef(Y^,Y)2=R2\qquad Coef(\hat{Y}, Y)^2 = R^2
Coef(Y^,Y)=Coef(X,Y)\qquad Coef(\hat{Y}, Y) = Coef(X, Y)

그러면 자연스레

Coef(X,Y)2=R2\qquad Coef(X, Y)^2 = R^2

임이 증명됩니다.


먼저 Coef(Y^,Y)2=R2Coef(\hat{Y}, Y)^2 = R^2 을 보이도록 하겠습니다.

Coef(Y^,Y)2\qquad Coef(\hat{Y}, Y)^2

=( (yi^yˉ)(yiyˉ) )2( (yi^yˉ)2 )( (yiyˉ)2 )\qquad = \dfrac{( \space \sum{(\hat{y_i} - \bar{y})(y_i - \bar{y})} \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}

=( (yi^yˉ)(yiyi^+yi^yˉ) )2( (yi^yˉ)2 )( (yiyˉ)2 )\qquad = \dfrac{( \space \sum{(\hat{y_i} - \bar{y})(y_i - \hat{y_i} + \hat{y_i} - \bar{y})} \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}

=( (yi^yˉ)(yiyi^)+(yi^yˉ)2 )2( (yi^yˉ)2 )( (yiyˉ)2 )\qquad = \dfrac{( \space \sum{(\hat{y_i} - \bar{y})(y_i - \hat{y_i}) + \sum(\hat{y_i} - \bar{y})^2} \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}

여기서 (yi^yˉ)(yiyi^)=0\sum{(\hat{y_i} - \bar{y})(y_i - \hat{y_i})} = 0 이므로(지난 포스팅 참조)

=( (yi^yˉ)2 )2( (yi^yˉ)2 )( (yiyˉ)2 )\qquad = \dfrac{( \space \sum(\hat{y_i} - \bar{y})^2 \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}

=(yi^yˉ)2(yiyˉ)2\qquad = \dfrac{\sum{(\hat{y_i} - \bar{y})^2}}{\sum{(y_i - \bar{y})^2}}

=R2\qquad = R^2


다음으로 Coef(Y^,Y)=Coef(X,Y)Coef(\hat{Y}, Y) = Coef(X, Y) 를 보이기 위해 다음 식을 먼저 증명하겠습니다.(E(P):E(P): PP 의 평균)

Cov(P,Q)=E(PQ)E(P)E(Q)\qquad Cov(P, Q) = E(PQ) - E(P)E(Q)

증명
Cov(P,Q)\qquad Cov(P, Q)

=(pipˉ)(qiqˉ)n\qquad = \dfrac{\sum{(p_i - \bar{p})(q_i - \bar{q})}}{n}

=(piqipˉqiqˉpi+pˉqˉ)n\qquad = \dfrac{\sum{(p_iq_i - \bar{p}\cdot q_i - \bar{q}\cdot p_i + \bar{p}\bar{q})}}{n}

=(piqi)pˉqiqˉpi+(pˉqˉ)n\qquad = \dfrac{\sum{(p_iq_i)} - \bar{p}\sum{q_i} - \bar{q}\sum{p_i} + \sum{(\bar{p}\bar{q}})}{n}

=(piqi)npˉqinqˉpin+npˉqˉn\qquad = \dfrac{\sum{(p_iq_i)}}{n} - \bar{p}\cdot \dfrac{\sum{q_i}}{n} - \bar{q}\cdot \dfrac{\sum{p_i}}{n} + \dfrac{n\bar{p}\bar{q}}{n}

=E(PQ)E(P)E(Q)E(P)E(Q)+E(P)E(Q)\qquad = E(PQ) - E(P)E(Q) - E(P)E(Q) + E(P)E(Q)

=E(PQ)E(P)E(Q)\qquad = E(PQ) - E(P)E(Q)


이제 본 증명을 시작해보면

Coef(Y^,Y)\qquad Coef(\hat{Y}, Y)

=Cov(Y^,Y)σ(Y^)σ(Y)\qquad = \dfrac{Cov(\hat{Y}, Y)}{\sigma(\hat{Y})\sigma(Y)}

=E(Y^Y)E(Y^)E(Y)σ(Y^)σ(Y)\qquad = \dfrac{E(\hat{Y}Y) - E(\hat{Y})E(Y)}{\sigma(\hat{Y})\sigma(Y)}

우리 선형회귀모델의 회귀방정식을 y^=β0+β1x\hat{y} = \beta_0 + \beta_1x 라고 하면, Y^=β0+β1X\hat{Y} = \beta_0 + \beta_1X 이므로

=E((β0+β1X)Y)E(β0+β1X)E(Y)σ(β0+β1X)σ(Y)\qquad = \dfrac{E((\beta_0 + \beta_1X)Y) - E(\beta_0 + \beta_1X)E(Y)}{\sigma(\beta_0 + \beta_1X)\sigma(Y)}

=E(β0Y+β1XY)(β0+β1E(X))E(Y)β1σ(X)σ(Y)\qquad = \dfrac{E(\beta_0Y + \beta_1XY) - (\beta_0 + \beta_1E(X))E(Y)}{\beta_1\sigma(X)\sigma(Y)}

=β0E(Y)+β1E(XY)β0E(Y)β1E(X)E(Y)β1σ(X)σ(Y)\qquad = \dfrac{\beta_0E(Y) + \beta_1E(XY) - \beta_0E(Y) - \beta_1E(X)E(Y)}{\beta_1\sigma(X)\sigma(Y)}

=β1E(XY)β1E(X)E(Y)β1σ(X)σ(Y)\qquad = \dfrac{\beta_1E(XY)- \beta_1E(X)E(Y)}{\beta_1\sigma(X)\sigma(Y)}

=β1(E(XY)E(X)E(Y))β1σ(X)σ(Y)\qquad = \dfrac{\beta_1(E(XY) - E(X)E(Y))}{\beta_1\sigma(X)\sigma(Y)}

=E(XY)E(X)E(Y)σ(X)σ(Y)\qquad = \dfrac{E(XY) - E(X)E(Y)}{\sigma(X)\sigma(Y)}

=Cov(X,Y)σ(X)σ(Y)\qquad = \dfrac{Cov(X, Y)}{\sigma(X)\sigma(Y)}

=Coef(X,Y)\qquad = Coef(X, Y)


이번 포스팅에서는 최소제곱법을 이용한 선형회귀에서 결정계수는 상관계수의 제곱이 됨을 알아보았습니다.

이를 이용하면 회귀모델을 직접 만들지 않고 상관계수만 구하더라도 만들어질 모델의 성능을 미리 알 수 있습니다.

또한 결정계수의 표기 기호가 왜 R2R^2 인지에 대한 설명이 되었으리라 생각합니다.

감사합니다.

profile
수학요정니모

0개의 댓글