머신러닝 모델은 크게 분류와 예측의 두 가지 일을 수행하는 것으로 구분할 수 있는데, 분류에 대한 평가지표의 기초는 앞에서 먼저 다루었습니다. 이번에는 기본적인 예측모델의 평가지표(사실 ML을 조금이라도 아는분은 다 아실만한 내용입니다.)를 간단하게 정리해보려고 합니다.
갑자기 국문명이 생각이 나지 않아 그냥 RMSE로 적도록 하겠습니다. 이 평가지표는 말 그대로 "오차 거리"의 제곱에 대한 평균에 제곱근을 씌운 것입니다. 공식은 아래와 같습니다.
이 평가지표는 L2(Eucleadian) Distance과 동일한 의미를 갖습니다. 실제 값에서 예측값인 의 거리(오차)를 제곱하고 과정이 아래의 L2 Distance 공식과 닮았음을 알 수 있습니다.
오차에 제곱을 취하는 의미는 음의 값을 처리하는 것으로 생각해볼 수 있습니다. 대신 제곱을 취하면 오차의 스케일이 커지기 때문에 다시 제곱근을 취하여 스케일을 원래대로 조정한 것으로 생각할 수 있습니다.
다만, 제곱을 취한 후 평균을 구하는 과정에서 아웃라이어(이상값)이 지나치게 확대되는 단점이 있기 때문에, 이점에 유의해서 사용해야 합니다.
아웃라이어에 민감하기 때문에 RMSE를 사용하는 경우 모델이 이를 반영하여 학습하게될 수 있는데, 이에 대한 간단한 대응 전략으로는 아래와 같은 점을 고려해 볼 수 있습니다.
1. 단순한 아웃라이어는 노이즈로 판단하고 제거하거나 필터링
2. 아웃라이어에 덜 민감한 모델을 고려
3. 아웃라이어에 덜 민감한 평가지표로 교체: MAE or MAPE
MAE도 역시 말그대로 절대 오차의 평균값을 취한 평가지표입니다. 공식은 다음과 같습니다.
이 평가지표는 L1(Manhattan) Distance와 동일한 의미를 가집니다. L1 Distance의 공식을 살펴보겠습니다. 공식이 닮아 있음을 확인할 수 있습니다.
오차의 절대값을 취하기 때문에 RSME에 비해 아웃라이어에 강건합니다. 거리를 가장 직관적으로 알 수 있는 지표입니다.
MAPE은 MAE에 Percent를 취해주어 오차의 비율로 평가하는 지표입니다. 공식은 다음과 같습니다.
오차의 절대값에 대해서 정규화()를 하기 때문에 아웃라이어에 대해서 상당히 강건합니다.