머신러닝이나 통계에서 회귀 모델의 성능을 평가할 때는 여러 지표가 사용된다.
대표적으로 평균 제곱 오차(MSE), 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE)가 있으며, 이 외에도 R², Adjusted R², MAPE, SMAPE, RMSLE, Huber Loss 등이 있다.
각 지표의 정의, 특징, 장단점, 사용 상황을 알아보자.
1. 평균 제곱 오차 (MSE, Mean Squared Error)
정의
MSE는 예측값과 실제값의 오차를 제곱하여 평균한 값이다. 수식으로 표현하면 다음과 같다.
MSE=n1∑i=1n(yi−y^i)2
yi : 실제 값
y^i : 예측 값
n : 샘플 수
특징
오차(실제-예측)의 제곱을 평균낸 값이다.
큰 오차에 더 큰 페널티를 준다.
수학적으로 미분이 가능하여 Gradient Descent 최적화에 유리하다.
단위가 원래 데이터의 단위와 다르다 (예: cm → cm²).
장점
큰 오차에 민감하여 모델이 큰 실수를 줄이도록 유도한다.
수학적으로 다루기 편하다.
단점
아웃라이어(outlier)에 취약하다.
2. 평균 절대 오차 (MAE, Mean Absolute Error)
정의
MAE는 예측값과 실제값의 차이를 절댓값으로 하여 평균한 값이다.
MAE=n1∑i=1n∣yi−y^i∣
특징
오차의 절댓값을 평균하여 직관적으로 "평균적으로 얼마만큼 틀렸는지" 보여준다.
단위가 원래 데이터와 동일하다 (예: cm → cm).
장점
해석이 직관적이다.
아웃라이어의 영향을 덜 받는다.
단점
큰 오차를 잘 반영하지 못할 수 있다.
미분이 0에서 정의되지 않아 Gradient Descent 최적화 계산 시 다루기 어렵다.
3. 평균 제곱근 오차 (RMSE, Root Mean Squared Error)
정의
RMSE는 MSE의 제곱근으로 정의된다.
RMSE=n1∑i=1n(yi−y^i)2
특징
MSE의 단점을 보완하여 원래 데이터 단위로 해석 가능하다.
MAE와 MSE의 중간 성격을 가진다.
장점
큰 오차에도 민감하면서도 직관적 해석이 가능하다.
많이 쓰이는 표준 지표이다.
단점
아웃라이어에 영향을 받을 수 있다.
4. MSE, MAE, RMSE 비교
지표
수식
장점
단점
단위
MSE
평균 제곱 오차
큰 오차 잘 잡음, 최적화 편리
아웃라이어 민감, 단위 해석 어려움
원 단위 제곱
MAE
평균 절대 오차
직관적, 아웃라이어 덜 민감
큰 오차 반영 약함, 최적화 어려움
원 단위
RMSE
MSE의 제곱근
직관적, 단위 해석 가능, 큰 오차에도 민감
아웃라이어 민감
원 단위
정리
MSE: 학습/최적화에 주로 사용한다.
MAE: 해석이 직관적이고 아웃라이어에 강건하다.
RMSE: 표준 지표로, 실제 단위로 평균 오차 크기를 직관적으로 보여준다.
5. 회귀에서 자주 쓰이는 다른 지표
지표
수식/개념
특징/용도
R² (결정계수)
R2=1−SStotSSres
모델이 데이터 분산을 얼마나 설명하는지, 0~1 사이
Adjusted R²
R² 조정 버전
변수 개수가 많은 모델에서 과적합 조정
MAPE
평균 절대 백분율 오차
상대 오차, 단위 독립, 판매량 예측 시 유용
SMAPE
대칭적 MAPE
실제 값이 0에 가까운 데이터에도 안정적
RMSLE
Root Mean Squared Log Error
지수적 성장 데이터 평가, 로그 단위
Huber Loss
MSE와 MAE 혼합
작은 오차는 제곱, 큰 오차는 절대값 → 아웃라이어에 덜 민감
6. 회귀 지표 선택 기준
아웃라이어 민감 여부 → MSE/RMSE 민감, MAE/Huber 강건
단위 그대로 해석 → MAE/RMSE
상대적 비율로 해석 → MAPE/SMAPE
로그 스케일 데이터 → RMSLE
7. 실무에서의 지표 활용
지표
단위/범위
특징
추천 상황
MSE
제곱 단위
큰 오차에 민감, 최적화에 유리
모델 학습 시 손실함수로 사용, 아웃라이어 적은 경우
RMSE
원 데이터 단위
MSE의 제곱근, 직관적
모델 성능 보고, 실제 예측 오차 크기 전달 시
MAE
원 데이터 단위
아웃라이어 덜 민감, 직관적
고객 예측 등 아웃라이어 영향 큰 데이터 해석용
R²
0~1
모델 설명력
전체 변동성 기준 평가
Adjusted R²
0~1
변수 수 조정
과적합 판단
MAPE
%
상대 오차
판매량, 가격 등 상대적 차이가 중요한 예측
SMAPE
0~200%
안정적
실제 값 0 근처 데이터
RMSLE
로그 단위
성장률 데이터 평가
트래픽, 판매량 예측 등 값 차 큰 경우
Huber Loss
혼합(MSE+MAE)
작은 오차는 제곱, 큰 오차는 절대값
아웃라이어 존재 시 학습 안정화용
실무 팁
일반 예측/보고용: RMSE 또는 MAE 함께 사용 → 직관적 해석 + 아웃라이어 영향 확인
아웃라이어 많을 때: MAE, Huber Loss, SMAPE 사용
비율/성장률 예측: MAPE, RMSLE 사용
모델 학습/손실함수: MSE, RMSE, Huber Loss 사용 (Gradient Descent 최적화 유리)
8. 결론
회귀 모델 평가 지표는 모델 성능을 다양한 관점에서 이해하고 비교하는 데 필수적이다. 각 지표의 특성을 이해하고 데이터 특성 및 실무 상황에 맞게 선택해야 한다. MSE, MAE, RMSE를 기본으로 하고, 필요에 따라 R², MAPE, RMSLE, Huber Loss 등을 보조 지표로 활용하는 것이 바람직하다.