R-squared (결정계수) 값이 크면, Error가 작아질까요?
결정계수와 오차, Hmm.. 둘의 관계가 어떻게 될까
일단 둘은 회귀모델의 평가지표이다.
오차 = 실제값 - 예측값
편차 = 실제값 - 평균값
수식을 통분하여 해석해보면,
{(편차제곱합)-(오차제곱합)} / (편차제곱합)
이 되니깐,
평균값으로 예측한 것보다 오차를 얼마나 줄였어?
라고 할 수 있다.
수식을 보면 오차가 작으면 R^2
값이 커지긴한다.
사실 모델의 성능을 평가할 때 MSE(Mean Squared Error)
를 사용한다면 R^2
가 커질 때 MSE는 작아질 것이다. 둘다 제곱합으로 계산하기 때문!
하지만 모델 성능 지표로써 MAE(Mean Absolute Error)
를 사용한다면 R^2
가 큰 모델이더라도 MAE가 작을 수 있다. 무조건 'error'가 작아지는 것이 아니다.
간단하게 생각해보면 MAE는 절대값의 합을 구하는 것이고, R^2
는 오차의 제곱합을 구하기 때문에 달라질 수 있겠다.
(실제값-예측값)으로 0~1 사이 값이 포함된다면 제곱과 절대값을 취하는 과정에서 경향성이 달라지는 것이다.
간단한 내용이지만 고민해보면서,
모델 성능 평가 지표로 어떤 것을 선택하는지, 수식이 어떻게 생겼더라 한번 더 생각해보는 것의 중요성을 다시금 리마인드 해보았다 😊