[Statistics] R-Square를 test set의 평가지표로 사용할 수 없는 이유

qw4735·2023년 8월 13일
0

Statistics

목록 보기
5/5
post-thumbnail

R-Square를 test set의 평가지표로 사용할 수 없는 이유

  • 회귀모델에서 최소제곱법은 train set 내에서 SSE가 최소가 되도록 회귀계수를 추정하는 방식이다.
    이 과정에서 잔차의 합은 0이 되며 (ri=0\sum r_i = 0), R2R^2 = 1 - SSESST\frac{SSE}{SST} = SSRSST\frac{SSR}{SST} 식이 유도된다.
    즉, 우리가 알지 못하는 test set 내에서는 잔차 합이 0이라는 가정이 성립한다는 보장이 없으므로, R2R^2 식이 성립하지 않는다.
    (회귀계수를 추정하는데 test set을 쓰지 않았기 때문에 당연히 test set에서는 잔차의 합이 0이 되지 않음 / 잔차에 대한 가정이 깨짐)

따라서, R2R^2는 test set의 평가지표로는 사용할 수 없고, 오직 train set의 평가지표로만 사용된다.

0개의 댓글

관련 채용 정보