[단순선형회귀] 결정계수 = 상관계수^2 증명

신현호·2022년 4월 30일

Machine Learning

목록 보기

4/8

지난 포스팅에서는 최소제곱법을 이용한 선형회귀에서 $SST = SSR + SSE$ 임을 증명했습니다
https://velog.io/@shh0422/%EB%8B%A8%EC%88%9C%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80-SST-SSR-SSE-%EC%84%B1%EB%A6%BD-%EC%A1%B0%EA%B1%B4%EA%B3%BC-%EC%A6%9D%EB%AA%85

이번 포스팅에서는 마찬가지로 최소제곱법을 이용한 선형회귀에서 결정계수 $R^2$ 이 상관계수 $r$ 의 제곱과 같음을 보이도록 하겠습니다.

결정계수 $R^2$

결정계수는 회귀모델의 성능을 평가하는 지표 중 하나로 다음과 같이 정의됩니다.

$\qquad R^2 = 1 - \dfrac{\sum{(y_i - \hat{y_i})^2}}{\sum{(y_i - \bar{y})^2}}$

위 식에서
분모에 있는 $\sum{(y_i - \bar{y})^2}$ 는 예측을 무지성 평균으로 했을 때의 잔차제곱합으로 생각할 수 있고
분자에 있는 $\sum{(y_i - \hat{y_i})^2}$ 는 회귀모델로 예측했을 때의 잔차제곱합입니다.

즉,

$R^2 = 1 - \dfrac{회귀모델의 \space 잔차제곱 \space 합}{기준모델의 \space 잔차제곱 \space 합}$

이 됩니다. (여기서 기준모델은 예측을 무조건 평균으로만 하는 모델로 생각했습니다)

이것의 의미를 생각해보면 1에서 기준모델에 대한 회귀모델의 에러 비율을 빼준 것입니다.
기준모델과 비교했을 때 회귀모델이 얼마나 뛰어난지를 나타내는 지표로 생각할 수 있는 것이죠.

전 포스트에서 다룬 $SST, SSR, SSE$ 를 이용하여 표기하면

$\qquad R^2 = 1 - \dfrac{SSR}{SST}$

입니다. (전 포스트에서도 언급했지만 책마다 $SSE, SSR$ 을 바꾸어 표기한다는 것은 주의!)

그런데 최소제곱법을 이용한 선형회귀에서는 $SST = SSR + SSE$ 이므로 다음 식이 성립합니다.

$\qquad R^2 = 1 - \dfrac{SSR}{SST} = \dfrac{SST - SSR}{SST} = \dfrac{SSE}{SST} = \dfrac{\sum{(\hat{y_i} - \bar{y})^2}}{\sum{(y_i - \bar{y})^2}}$

결정계수 = 상관계수 $^2$

최종적으로 보이고 싶은 것은 결정계수 $R^2$ 이 $(X, Y)$ 의 상관계수의 제곱과 같다는 사실입니다.

이를 보이기 위해 다음 두 사실을 증명할 것입니다.

$\qquad Coef(\hat{Y}, Y)^2 = R^2$
$\qquad Coef(\hat{Y}, Y) = Coef(X, Y)$

그러면 자연스레

$\qquad Coef(X, Y)^2 = R^2$

임이 증명됩니다.

먼저 $Coef(\hat{Y}, Y)^2 = R^2$ 을 보이도록 하겠습니다.

$\qquad Coef(\hat{Y}, Y)^2$

$\qquad = \dfrac{( \space \sum{(\hat{y_i} - \bar{y})(y_i - \bar{y})} \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}$

$\qquad = \dfrac{( \space \sum{(\hat{y_i} - \bar{y})(y_i - \hat{y_i} + \hat{y_i} - \bar{y})} \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}$

$\qquad = \dfrac{( \space \sum{(\hat{y_i} - \bar{y})(y_i - \hat{y_i}) + \sum(\hat{y_i} - \bar{y})^2} \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}$

여기서 $\sum{(\hat{y_i} - \bar{y})(y_i - \hat{y_i})} = 0$ 이므로(지난 포스팅 참조)

$\qquad = \dfrac{( \space \sum(\hat{y_i} - \bar{y})^2 \space)^2}{( \space \sum(\hat{y_i} - \bar{y})^2 \space )( \space \sum(y_i - \bar{y})^2 \space)}$

$\qquad = \dfrac{\sum{(\hat{y_i} - \bar{y})^2}}{\sum{(y_i - \bar{y})^2}}$

$\qquad = R^2$

다음으로 $Coef(\hat{Y}, Y) = Coef(X, Y)$ 를 보이기 위해 다음 식을 먼저 증명하겠습니다.( $E(P):$ $P$ 의 평균)

$\qquad Cov(P, Q) = E(PQ) - E(P)E(Q)$

증명
$\qquad Cov(P, Q)$

$\qquad = \dfrac{\sum{(p_i - \bar{p})(q_i - \bar{q})}}{n}$

$\qquad = \dfrac{\sum{(p_iq_i - \bar{p}\cdot q_i - \bar{q}\cdot p_i + \bar{p}\bar{q})}}{n}$

$\qquad = \dfrac{\sum{(p_iq_i)} - \bar{p}\sum{q_i} - \bar{q}\sum{p_i} + \sum{(\bar{p}\bar{q}})}{n}$

$\qquad = \dfrac{\sum{(p_iq_i)}}{n} - \bar{p}\cdot \dfrac{\sum{q_i}}{n} - \bar{q}\cdot \dfrac{\sum{p_i}}{n} + \dfrac{n\bar{p}\bar{q}}{n}$

$\qquad = E(PQ) - E(P)E(Q) - E(P)E(Q) + E(P)E(Q)$

$\qquad = E(PQ) - E(P)E(Q)$

이제 본 증명을 시작해보면

$\qquad Coef(\hat{Y}, Y)$

$\qquad = \dfrac{Cov(\hat{Y}, Y)}{\sigma(\hat{Y})\sigma(Y)}$

$\qquad = \dfrac{E(\hat{Y}Y) - E(\hat{Y})E(Y)}{\sigma(\hat{Y})\sigma(Y)}$

우리 선형회귀모델의 회귀방정식을 $\hat{y} = \beta_0 + \beta_1x$ 라고 하면, $\hat{Y} = \beta_0 + \beta_1X$ 이므로

$\qquad = \dfrac{E((\beta_0 + \beta_1X)Y) - E(\beta_0 + \beta_1X)E(Y)}{\sigma(\beta_0 + \beta_1X)\sigma(Y)}$

$\qquad = \dfrac{E(\beta_0Y + \beta_1XY) - (\beta_0 + \beta_1E(X))E(Y)}{\beta_1\sigma(X)\sigma(Y)}$

$\qquad = \dfrac{\beta_0E(Y) + \beta_1E(XY) - \beta_0E(Y) - \beta_1E(X)E(Y)}{\beta_1\sigma(X)\sigma(Y)}$

$\qquad = \dfrac{\beta_1E(XY)- \beta_1E(X)E(Y)}{\beta_1\sigma(X)\sigma(Y)}$

$\qquad = \dfrac{\beta_1(E(XY) - E(X)E(Y))}{\beta_1\sigma(X)\sigma(Y)}$

$\qquad = \dfrac{E(XY) - E(X)E(Y)}{\sigma(X)\sigma(Y)}$

$\qquad = \dfrac{Cov(X, Y)}{\sigma(X)\sigma(Y)}$

$\qquad = Coef(X, Y)$

이번 포스팅에서는 최소제곱법을 이용한 선형회귀에서 결정계수는 상관계수의 제곱이 됨을 알아보았습니다.

이를 이용하면 회귀모델을 직접 만들지 않고 상관계수만 구하더라도 만들어질 모델의 성능을 미리 알 수 있습니다.

또한 결정계수의 표기 기호가 왜 $R^2$ 인지에 대한 설명이 되었으리라 생각합니다.

감사합니다.

신현호

수학요정니모

이전 포스트

[단순선형회귀] SST = SSR + SSE 성립 조건과 증명

다음 포스트

[단순선형회귀] 결정계수 = 상관계수^2 증명

Machine Learning

결정계수 $R^2$

결정계수 = 상관계수 $^2$

[단순선형회귀] SST = SSR + SSE 성립 조건과 증명

[Logistic 회귀] Odds?

0개의 댓글

관련 채용 정보

[단순선형회귀] 결정계수 = 상관계수^2 증명

Machine Learning

결정계수 R2R^2R2

결정계수 = 상관계수2^22

[단순선형회귀] SST = SSR + SSE 성립 조건과 증명

[Logistic 회귀] Odds?

0개의 댓글

관련 채용 정보

결정계수 $R^2$

결정계수 = 상관계수 $^2$