RMSE는 실제 값과 예측 값의 차이를 제곱하여 평균낸 뒤, 그 제곱근을 취한 값. 이는 예측 오차의 크기를 나타내는 지표로 값이 작을수록 모델의 예측 정확도가 높음을 의미한다.
언제 사용할까?
회귀모델 성능을 평가할 때 사용
특히 연속적인 수치를 예측하는 문제에서 모델의 예측 오차를 측정하는데 유용하다.
특징
큰 오차에 대해 가중치를 더 부여하기 때문에, 모델이 큰 오차를 만드는 경우 이를 잘 포착할 수 있다 -> 오차의 제곱근을 RMSE!!
실제 값 y_true와 예측 값 y_pred 사이의 RMSE(Root Mean Squared Error)를 계산하는 과정
from sklearn.metrics import mean_squared_error
import numpy as np
# 실제 값과 예측 값
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
# RMSE 계산
rmse = np.sqrt(mean_squared_error(y_true, y_pred))
print("RMSE:", rmse)
MAE는 실제 갑과 예측 값의 차이의 절대값을 평균한것
이 지표는 모델의 예측이 실제 값에서 평균적으로 얼마나 떨어져 있는지를 나타내며, 값이 작을수록 예측의 정확도가 높다.
언제 사용되는가
MAE는 회귀 문제에서 모델의 성능을 평가할 때 널리 사용
특히 이상치로 인한 큰 오차를 특별히 더 중요하게 다루지 않을 때 유용하다.
MAE의 특징
동등한 오차 처리 MAE는 모든 오차를 동등하게 취급한다. 이는 실제 값과 예측 값 사이의 차이를 절대값으로 취하여 평균을 낸 것. 이 방식은 오차의 크기에 관계없이 모든 오차를 같은 비중으로 다루므로, 작은 오차든 큰 오차든 모두 모델 평가에 동일하게 기여
이상치에 대한 민감도 낮음
MAE는 이상치에 덜 민감하다. 큰 오차가 있더라도 그것이 MAE값에 미치는 영향은 제한적. 이는 MAE가 오차를 제곱하지 않기 때문에, 큰 오차가 전체 오차 평균에 미치는 영향이 상대적으로 제한된다.
직관적인 해석
MAE는 모델의 평균적인 오차를 직관적으로 이해할 수 있는 방법을 제공
즉, 모델이 평균적으로 실제 값과 얼마나 차이가 나는지를 쉽게 파악할 수 있다.
특징
MAE는 실제 값과 예측 값의 차이를 그대로 반영하기 때문에, 모델 성능의 평균적인 정확도를 이해하는데 유용하다. 이는 특히 오차의 절대 크기가 중요한 비즈니스 결정이나 응용분야에서 중요할 수 있다.
주의사항
MAE는 모든 오차를 동일하게 취급하므로, 큰 오차를 갖는 데이터 포인트의 중요성을 간과할 수 있다.
데이터릐 범위와 문제의 맥락을 고려하여 MAE값을 해석해야한다.
실제 값 y_true와 예측 값 y_pred 사이의 MAE(Mean Absolute Error)를 계산하는 과정
from sklearn.metrics import mean_absolute_error
# 실제 값과 예측 값
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
# MAE 계산
mae = mean_absolute_error(y_true, y_pred)
print("MAE:", mae)
둘 다 모두 회귀 모델의 성능을 평가하는데 사용되는 지표이다
그러나 이 두 지표가 오차를 처리하는 방식에는 중요한 차이점이 있다
이 차이점을 이해하는 것은 모델의 성능을 정확히 해석하고, 문제에 적합한 지표를 선택하는데 중요
RMSE
각 오차를 제곱한 후 평균을 내고 마지막에 제곱근을 취한다
이 방식은 큰 오차에 더 큰 가중치를 부여. 즉, 이상치나 큰 오차가 있을 경우 RMSE값이 크게 증가
MAE
각 오차의 절대값을 취한 후 평균을 낸다. 이는 모든 오차를 동등하게 취급하므오, 큰 오차와 작은 오차가 지표에 미치는 영향이 동일하다.
해석의 용이성
-RMSE
제곱근을 취하기 때문에, 오차 값이 원래의 측정 단위로 돌아옵니다.
그러나 큰 오차에 대한 가중치로 인해 전체 오차의 분포를 해석하기가 더 어려울 수 있다
-MAE
오차의 절대값을 사용하기 때문에, 모델의 평균적인 오차가 얼마나 되는지를 직관적으로 이해하기 쉽다
선택기준
-RMSE
큰 오차를 특히 피해야 하는 경우에 적합한 지표
예를 들어, 큰 오차가 치명적인 영향을 미치는 응용 분야에서 RMSE를 선호할 수 있다
-MAE
이상치가 많은 데이터나 오차의 균등한 처리가 중요한 경우에 더 적합하다.
모델의 평균 오차를 직관적으로 이해하고 싶을 때 유용