10/14 6, 7세션
A. 분류 모델 평가
- 분류 모델은 0인지 1인지를 예측하는 것
- 예측 값이 실제 값과 많이 같을 수록 좋은 모델
- 정답 맞추기
B. 회귀 모델 평가
- 예측 값과 실제 값에 차이(오차) 존재
- 예측 값과 실제 값의 차이로 성능 평가
- 평균보다 오차 줄이기
C. 오차 계산
C-1. 오차 합
- 오차 합
- 오차 제곱의 합
∑(y−y^)2
- 오차 절대값의 합
∑∣y−y^∣
C-2. 오차 평균
-
SSE (Sum Squared Error) : 오차 제곱의 합
-
MSE (Mean Squared Error) : 오차 제곱의 합/데이터 개수
n∑(y−y^)2
-
RMSE (Root MSE) : MSE 를 다시 루트 씌움. 제곱한 수이기 때문에 크기 때문.
n∑(y−y^)2
C-3. 오차 절대값
MAE (Mean Absolute Error) : 오차 절대값의 합/데이터 개수n∑∣y−y^∣
MAPE (Mean Absolute Percentage Error) : 오차 비율
오차가 작을 수록 모델 성능이 좋은 것!
D. 오차를 바라보는 다양한 관점
-
SST (Sum Squared Total) : 실제값과 평균 값의 오차 제곱의 합
∑(yi−yˉ)2
-
SSR (Sum Squared Regressor) : 예측값과 평균값의 오차 제곱의 합. 클 수록 좋다
∑(yi^−yˉ)2
SST = SSE + SSR
전체 오차 = 해결하지 못한 오차 + 잡아낸 오차
E. 결정 계수 (R-Squared)
- 전체 오차 중에서 회귀식이 잡아낸 오차의 비율
- 오차의 비 (= 설명력)
- R^2 = 1이면 MSE = 0이고, 모델이 데이터를 완벽하게 학습한 것
- 클 수록 좋다
평균에 비해서 57% 정도 설명을 더 잘했습니다.
R2=SSTSSR=1−SSTSSE
(기타) 기호
Y^:예측값
Yˉ:평균값
Latex 문법 참고