예측모델 평가 지표 간단 정리

vanang7·2021년 1월 28일
0

예측모델 평가지표

머신러닝 모델은 크게 분류와 예측의 두 가지 일을 수행하는 것으로 구분할 수 있는데, 분류에 대한 평가지표의 기초는 앞에서 먼저 다루었습니다. 이번에는 기본적인 예측모델의 평가지표(사실 ML을 조금이라도 아는분은 다 아실만한 내용입니다.)를 간단하게 정리해보려고 합니다.

RMSE: Root Mean Square Error

갑자기 국문명이 생각이 나지 않아 그냥 RMSE로 적도록 하겠습니다. 이 평가지표는 말 그대로 "오차 거리"의 제곱에 대한 평균에 제곱근을 씌운 것입니다. 공식은 아래와 같습니다.

$\displaystyle RMSE = \sqrt{\frac{\sum_{i=i}^{N}{(y_i - \hat{y_i})^2}}{N}}$

기하학적 의미

이 평가지표는 L2(Eucleadian) Distance과 동일한 의미를 갖습니다. 실제 $y_i$값에서 예측값인 $\hat{y_i}$의 거리(오차)를 제곱하고 과정이 아래의 L2 Distance 공식과 닮았음을 알 수 있습니다.

$\displaystyle D_2(I_1, I_2) = \sqrt{\sum_{p}(I_1^p - I_2^p)^2}$

특징

오차에 제곱을 취하는 의미는 음의 값을 처리하는 것으로 생각해볼 수 있습니다. 대신 제곱을 취하면 오차의 스케일이 커지기 때문에 다시 제곱근을 취하여 스케일을 원래대로 조정한 것으로 생각할 수 있습니다.
다만, 제곱을 취한 후 평균을 구하는 과정에서 아웃라이어(이상값)이 지나치게 확대되는 단점이 있기 때문에, 이점에 유의해서 사용해야 합니다.

아웃라이어에 대한 대응

아웃라이어에 민감하기 때문에 RMSE를 사용하는 경우 모델이 이를 반영하여 학습하게될 수 있는데, 이에 대한 간단한 대응 전략으로는 아래와 같은 점을 고려해 볼 수 있습니다.

  1. 단순한 아웃라이어는 노이즈로 판단하고 제거하거나 필터링
  2. 아웃라이어에 덜 민감한 모델을 고려
  3. 아웃라이어에 덜 민감한 평가지표로 교체: MAE or MAPE

MAE: Mean Absolute Error

MAE도 역시 말그대로 절대 오차의 평균값을 취한 평가지표입니다. 공식은 다음과 같습니다.

$\displaystyle MAE = \frac{\sum_{i=1}^{N}|y_i - \hat{y_i}|}{N}$

기하학적 의미

이 평가지표는 L1(Manhattan) Distance와 동일한 의미를 가집니다. L1 Distance의 공식을 살펴보겠습니다. 공식이 닮아 있음을 확인할 수 있습니다.

$\displaystyle D_1(I_1,I_2) = \sum_{p} |I_1^p - I_2^p|$

특징

오차의 절대값을 취하기 때문에 RSME에 비해 아웃라이어에 강건합니다. 거리를 가장 직관적으로 알 수 있는 지표입니다.

MAPE: Mean Absolute Percent Error

MAPE은 MAE에 Percent를 취해주어 오차의 비율로 평가하는 지표입니다. 공식은 다음과 같습니다.

$\displaystyle MAPE = \sum_{i=1}^{N}|\frac{y_i - \hat{y_i}}{y_i}| * \frac{100}{N}$

특징

오차의 절대값에 대해서 정규화($|\frac{y_i - \hat{y_i}}{y_i}|$)를 하기 때문에 아웃라이어에 대해서 상당히 강건합니다.

profile
Unknowns vastly exceeds knowns

0개의 댓글