[ML] 회귀 모델 평가 지표(Regression Metrics)

Hyunjun Kim·2025년 9월 3일

Machine Learning

목록 보기
7/11

[ML] 회귀 모델 평가 지표(Regression Metrics)

머신러닝이나 통계에서 회귀 모델의 성능을 평가할 때는 여러 지표가 사용된다.
대표적으로 평균 제곱 오차(MSE), 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE)가 있으며, 이 외에도 R², Adjusted R², MAPE, SMAPE, RMSLE, Huber Loss 등이 있다.

각 지표의 정의, 특징, 장단점, 사용 상황을 알아보자.


1. 평균 제곱 오차 (MSE, Mean Squared Error)

정의

MSE는 예측값과 실제값의 오차를 제곱하여 평균한 값이다. 수식으로 표현하면 다음과 같다.

MSE=1ni=1n(yiy^i)2MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

  • yiy_i : 실제 값
  • y^i\hat{y}_i : 예측 값
  • nn : 샘플 수

특징

  • 오차(실제-예측)의 제곱을 평균낸 값이다.
  • 큰 오차에 더 큰 페널티를 준다.
  • 수학적으로 미분이 가능하여 Gradient Descent 최적화에 유리하다.
  • 단위가 원래 데이터의 단위와 다르다 (예: cm → cm²).

장점

  • 큰 오차에 민감하여 모델이 큰 실수를 줄이도록 유도한다.
  • 수학적으로 다루기 편하다.

단점

  • 아웃라이어(outlier)에 취약하다.

2. 평균 절대 오차 (MAE, Mean Absolute Error)

정의

MAE는 예측값과 실제값의 차이를 절댓값으로 하여 평균한 값이다.

MAE=1ni=1nyiy^iMAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|

특징

  • 오차의 절댓값을 평균하여 직관적으로 "평균적으로 얼마만큼 틀렸는지" 보여준다.
  • 단위가 원래 데이터와 동일하다 (예: cm → cm).

장점

  • 해석이 직관적이다.
  • 아웃라이어의 영향을 덜 받는다.

단점

  • 큰 오차를 잘 반영하지 못할 수 있다.
  • 미분이 0에서 정의되지 않아 Gradient Descent 최적화 계산 시 다루기 어렵다.

3. 평균 제곱근 오차 (RMSE, Root Mean Squared Error)

정의

RMSE는 MSE의 제곱근으로 정의된다.

RMSE=1ni=1n(yiy^i)2RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}

특징

  • MSE의 단점을 보완하여 원래 데이터 단위로 해석 가능하다.
  • MAE와 MSE의 중간 성격을 가진다.

장점

  • 큰 오차에도 민감하면서도 직관적 해석이 가능하다.
  • 많이 쓰이는 표준 지표이다.

단점

  • 아웃라이어에 영향을 받을 수 있다.

4. MSE, MAE, RMSE 비교

지표수식장점단점단위
MSE평균 제곱 오차큰 오차 잘 잡음, 최적화 편리아웃라이어 민감, 단위 해석 어려움원 단위 제곱
MAE평균 절대 오차직관적, 아웃라이어 덜 민감큰 오차 반영 약함, 최적화 어려움원 단위
RMSEMSE의 제곱근직관적, 단위 해석 가능, 큰 오차에도 민감아웃라이어 민감원 단위

정리

  • MSE: 학습/최적화에 주로 사용한다.
  • MAE: 해석이 직관적이고 아웃라이어에 강건하다.
  • RMSE: 표준 지표로, 실제 단위로 평균 오차 크기를 직관적으로 보여준다.

5. 회귀에서 자주 쓰이는 다른 지표

지표수식/개념특징/용도
R² (결정계수)R2=1SSresSStotR^2 = 1 - \frac{SS_{res}}{SS_{tot}}모델이 데이터 분산을 얼마나 설명하는지, 0~1 사이
Adjusted R²R² 조정 버전변수 개수가 많은 모델에서 과적합 조정
MAPE평균 절대 백분율 오차상대 오차, 단위 독립, 판매량 예측 시 유용
SMAPE대칭적 MAPE실제 값이 0에 가까운 데이터에도 안정적
RMSLERoot Mean Squared Log Error지수적 성장 데이터 평가, 로그 단위
Huber LossMSE와 MAE 혼합작은 오차는 제곱, 큰 오차는 절대값 → 아웃라이어에 덜 민감

6. 회귀 지표 선택 기준

  • 아웃라이어 민감 여부 → MSE/RMSE 민감, MAE/Huber 강건
  • 단위 그대로 해석 → MAE/RMSE
  • 상대적 비율로 해석 → MAPE/SMAPE
  • 로그 스케일 데이터 → RMSLE

7. 실무에서의 지표 활용

지표단위/범위특징추천 상황
MSE제곱 단위큰 오차에 민감, 최적화에 유리모델 학습 시 손실함수로 사용, 아웃라이어 적은 경우
RMSE원 데이터 단위MSE의 제곱근, 직관적모델 성능 보고, 실제 예측 오차 크기 전달 시
MAE원 데이터 단위아웃라이어 덜 민감, 직관적고객 예측 등 아웃라이어 영향 큰 데이터 해석용
0~1모델 설명력전체 변동성 기준 평가
Adjusted R²0~1변수 수 조정과적합 판단
MAPE%상대 오차판매량, 가격 등 상대적 차이가 중요한 예측
SMAPE0~200%안정적실제 값 0 근처 데이터
RMSLE로그 단위성장률 데이터 평가트래픽, 판매량 예측 등 값 차 큰 경우
Huber Loss혼합(MSE+MAE)작은 오차는 제곱, 큰 오차는 절대값아웃라이어 존재 시 학습 안정화용

실무 팁

  • 일반 예측/보고용: RMSE 또는 MAE 함께 사용 → 직관적 해석 + 아웃라이어 영향 확인
  • 아웃라이어 많을 때: MAE, Huber Loss, SMAPE 사용
  • 비율/성장률 예측: MAPE, RMSLE 사용
  • 모델 학습/손실함수: MSE, RMSE, Huber Loss 사용 (Gradient Descent 최적화 유리)

8. 결론

회귀 모델 평가 지표는 모델 성능을 다양한 관점에서 이해하고 비교하는 데 필수적이다. 각 지표의 특성을 이해하고 데이터 특성 및 실무 상황에 맞게 선택해야 한다. MSE, MAE, RMSE를 기본으로 하고, 필요에 따라 R², MAPE, RMSLE, Huber Loss 등을 보조 지표로 활용하는 것이 바람직하다.

profile
Data Analytics Engineer 가 되

0개의 댓글