R squared는 회귀모델의 설명력을 나타내는 지표.
이다.
우리가 가장 쉽게 생각할 수 있는 회귀식은 이다. 이런 엉망인 회귀식일때의 오차와 데이터 학습해서 만든 회귀식의 오차를 비교해서 얼마나 개선됐는지 파악하는 것이 R squared 지표이다.
즉 찾아낸 회귀선이 얼마나 Residual을 줄였냐와 같은 말
데이터를 평균치로 예측한다했을때 오차 -> SST =
회귀식으로 예측했을때 오차 -> SSE =
평균치로 예측한 오차 - 회귀식으로 예측한 오차 -> SSR =
SST = SSR + SSE
결정계수값이 1에 가까울수록 좋은 설명력을 가진다.
회귀변수, 데이터가 많을수록 높은 결정계수값을 가지게 되므로 Adj R squared값을 쓰기도 한다.
참고