R-Square를 test set의 평가지표로 사용할 수 없는 이유
- 회귀모델에서 최소제곱법은 train set 내에서 SSE가 최소가 되도록 회귀계수를 추정하는 방식이다.
이 과정에서 잔차의 합은 0이 되며 (∑ri=0), R2 = 1 - SSTSSE = SSTSSR 식이 유도된다.
즉, 우리가 알지 못하는 test set 내에서는 잔차 합이 0이라는 가정이 성립한다는 보장이 없으므로, R2 식이 성립하지 않는다.
(회귀계수를 추정하는데 test set을 쓰지 않았기 때문에 당연히 test set에서는 잔차의 합이 0이 되지 않음 / 잔차에 대한 가정이 깨짐)
따라서, R2는 test set의 평가지표로는 사용할 수 없고, 오직 train set의 평가지표로만 사용된다.
