회귀모델 성능 평가지표

kang9366·2023년 1월 25일
0

MAE(Mean Absolute Error)

실제 정답 값과 예측 값의 차이를 절댓값으로 변환한 뒤 합산하여 평균을 구한다.
특이값이 많은 경우에 주로 사용되며 값이 낮을수록 좋다.

장점

  • 직관점임
  • 정답 및 예측 값과 같은 단위를 가짐

단점

  • 실제 정답보다 낮게 예측했는지, 높게 했는지를 파악하기 힘듦
  • 스케일 의존적임(scal dependency): 모델마다 에류 크기가 동일해도 에러율은 동일하지 않음

MSE(Mean Squared Error)

실제 정답 값과 예측 값의 차이를 제곱한 뒤 평균을 구한다.
값이 낮을수록 좋다.

장점

  • 직관적임

단점

  • 제곱하기 때문에 1미만의 에러는 작아지고, 그 이상의 에러는 커짐
  • 실제 정답보다 낮게 예측했는지, 높게 했는지를 파악하기 힘듦
  • 스케일 의존적임(scal dependency): 모델마다 error 크기가 동일해도 error rate는 동일하지 않음

RMSE(Root Mean Squared Error)

MSE에 루트를 씌워서 error를 제곱해서 생기는 값의 왜곡이 줄어든다.

값이 낮을수록 좋다.

장점

  • 직관적임

단점

  • 제곱하기 때문에 1미만의 에러는 작아지고, 그 이상의 에러는 커짐
  • 실제 정답보다 낮게 예측했는지, 높게 했는지를 파악하기 힘듦
  • 스케일 의존적임(scal dependency): 모델마다 error 크기가 동일해도 error rate는 동일하지 않음

MAPE(Mean Absolute Percentage Error, 평균 절대 비율 오차)

MAE를 비율, 퍼센트로 표현하여 스케인 의존적 에러의 문제점을 개선한다.

값이 낮을수록 좋다.

장점

  • 직관적임
  • 다른 모델과 에러율 비교가 쉬움

단점

  • 실제 정답보다 낮게 예측했는지, 높게 했는지를 파악하기 힘듦
  • 실제 정답이 1보다작을 경우,무한대의 값으로 수렴할 수 있음

R-squared

다른 지표(MAE, MSE, RMSE)들은 모델마다 값이 다르기 때문에 절대 값만 보고 성능을 판단하기 어렵다.

R2 score는 상대적인 성능을 나타내기 비교가 쉽다.

실제 값의 분산 대비 예측값의 분산 비율을 의미한다.

1에 가까울 수록 좋다.

profile
강승구

0개의 댓글