참고
데이터사이언스 인터뷰 질문모음
회귀(Regression)
회귀 문제에서는 실제 값과 모델이 예측하는 값의 차이에 기반을 둔 metric(평가)을 사용합니다. 대표적으로 RSS(단순 오차 제곱 합), MSE(평균 제곱 오차), MAE(평균 절대값 오차)가 있습니다.
-
RSS(단순 오차 제곱 합)
- 실제 값과 예측 값의 단순 오차 제곱 합
- 값이 작을수록 모델의 성능이 높다고 평가
-
MSE(평균 제곱 오차)
- RSS를 데이터의 개수만큼 나눈 값
- 값이 작을수록 모델의 성능이 높다고 평가
- 오차에 제곱이 되기 때문에 Outlier(이상치) 잡아내는 데 효과적
- 루트를 씌우면 RMSE
-
MAE(평균 절대값 오차)
- 예측값과 실제값의 오차의 절대값의 평균
- 값이 작을 수록 모델의 성능이 높다고 평가
- 변동치가 큰 지표와 낮은 지표를 같이 예측하는 데 효과적
- 루트를 씌우면 RMAE
평균을 그대로 이용하기 때문에 데이터의 크기에 의존한다는 단점 존재
- R2(결정계수)
- 데이터의 크기에 의존한다는 단점 극복 가능
- R2=1−TSSRSS
- TSS는 평균 값과 실제 값 차이의 제곱
- TSS=i∑N(yi−y)2
- R2는 회귀 모델의 설명력을 표현하는 지표
- 1에 가까울 수록 높은 성능의 모델
- R2 = 0이면 평균 값을 출력하는 직선 모델을 의미