지난 포스팅에서는 최소제곱법을 이용한 선형회귀에서 SST=SSR+SSE 임을 증명했습니다
https://velog.io/@shh0422/%EB%8B%A8%EC%88%9C%EC%84%A0%ED%98%95%ED%9A%8C%EA%B7%80-SST-SSR-SSE-%EC%84%B1%EB%A6%BD-%EC%A1%B0%EA%B1%B4%EA%B3%BC-%EC%A6%9D%EB%AA%85
이번 포스팅에서는 마찬가지로 최소제곱법을 이용한 선형회귀에서 결정계수 R2이 상관계수 r의 제곱과 같음을 보이도록 하겠습니다.
결정계수 R2
결정계수는 회귀모델의 성능을 평가하는 지표 중 하나로 다음과 같이 정의됩니다.
R2=1−∑(yi−yˉ)2∑(yi−yi^)2
위 식에서
분모에 있는 ∑(yi−yˉ)2 는 예측을 무지성 평균으로 했을 때의 잔차제곱합으로 생각할 수 있고
분자에 있는 ∑(yi−yi^)2 는 회귀모델로 예측했을 때의 잔차제곱합입니다.
즉,
R2=1−기준모델의 잔차제곱 합회귀모델의 잔차제곱 합
이 됩니다. (여기서 기준모델은 예측을 무조건 평균으로만 하는 모델로 생각했습니다)
이것의 의미를 생각해보면 1에서 기준모델에 대한 회귀모델의 에러 비율을 빼준 것입니다.
기준모델과 비교했을 때 회귀모델이 얼마나 뛰어난지를 나타내는 지표로 생각할 수 있는 것이죠.
전 포스트에서 다룬 SST,SSR,SSE 를 이용하여 표기하면
R2=1−SSTSSR
입니다. (전 포스트에서도 언급했지만 책마다 SSE,SSR 을 바꾸어 표기한다는 것은 주의!)
그런데 최소제곱법을 이용한 선형회귀에서는 SST=SSR+SSE 이므로 다음 식이 성립합니다.
R2=1−SSTSSR=SSTSST−SSR=SSTSSE=∑(yi−yˉ)2∑(yi^−yˉ)2
결정계수 = 상관계수2
최종적으로 보이고 싶은 것은 결정계수 R2 이 (X,Y)의 상관계수의 제곱과 같다는 사실입니다.
이를 보이기 위해 다음 두 사실을 증명할 것입니다.
Coef(Y^,Y)2=R2
Coef(Y^,Y)=Coef(X,Y)
그러면 자연스레
Coef(X,Y)2=R2
임이 증명됩니다.
먼저 Coef(Y^,Y)2=R2 을 보이도록 하겠습니다.
Coef(Y^,Y)2
=( ∑(yi^−yˉ)2 )( ∑(yi−yˉ)2 )( ∑(yi^−yˉ)(yi−yˉ) )2
=( ∑(yi^−yˉ)2 )( ∑(yi−yˉ)2 )( ∑(yi^−yˉ)(yi−yi^+yi^−yˉ) )2
=( ∑(yi^−yˉ)2 )( ∑(yi−yˉ)2 )( ∑(yi^−yˉ)(yi−yi^)+∑(yi^−yˉ)2 )2
여기서 ∑(yi^−yˉ)(yi−yi^)=0 이므로(지난 포스팅 참조)
=( ∑(yi^−yˉ)2 )( ∑(yi−yˉ)2 )( ∑(yi^−yˉ)2 )2
=∑(yi−yˉ)2∑(yi^−yˉ)2
=R2
다음으로 Coef(Y^,Y)=Coef(X,Y) 를 보이기 위해 다음 식을 먼저 증명하겠습니다.(E(P): P 의 평균)
Cov(P,Q)=E(PQ)−E(P)E(Q)
증명
Cov(P,Q)
=n∑(pi−pˉ)(qi−qˉ)
=n∑(piqi−pˉ⋅qi−qˉ⋅pi+pˉqˉ)
=n∑(piqi)−pˉ∑qi−qˉ∑pi+∑(pˉqˉ)
=n∑(piqi)−pˉ⋅n∑qi−qˉ⋅n∑pi+nnpˉqˉ
=E(PQ)−E(P)E(Q)−E(P)E(Q)+E(P)E(Q)
=E(PQ)−E(P)E(Q)
이제 본 증명을 시작해보면
Coef(Y^,Y)
=σ(Y^)σ(Y)Cov(Y^,Y)
=σ(Y^)σ(Y)E(Y^Y)−E(Y^)E(Y)
우리 선형회귀모델의 회귀방정식을 y^=β0+β1x 라고 하면, Y^=β0+β1X 이므로
=σ(β0+β1X)σ(Y)E((β0+β1X)Y)−E(β0+β1X)E(Y)
=β1σ(X)σ(Y)E(β0Y+β1XY)−(β0+β1E(X))E(Y)
=β1σ(X)σ(Y)β0E(Y)+β1E(XY)−β0E(Y)−β1E(X)E(Y)
=β1σ(X)σ(Y)β1E(XY)−β1E(X)E(Y)
=β1σ(X)σ(Y)β1(E(XY)−E(X)E(Y))
=σ(X)σ(Y)E(XY)−E(X)E(Y)
=σ(X)σ(Y)Cov(X,Y)
=Coef(X,Y)
이번 포스팅에서는 최소제곱법을 이용한 선형회귀에서 결정계수는 상관계수의 제곱이 됨을 알아보았습니다.
이를 이용하면 회귀모델을 직접 만들지 않고 상관계수만 구하더라도 만들어질 모델의 성능을 미리 알 수 있습니다.
또한 결정계수의 표기 기호가 왜 R2 인지에 대한 설명이 되었으리라 생각합니다.
감사합니다.