회귀, 분류 Metric

Hansss·2021년 11월 29일

기술면접스터디

Machine Learning

목록 보기

10/10

회귀 metric

회귀문제에서는 실제 값과 예측 값의 차이에 기반을 둔 metric을 사용합니다.

대표적으로 RSS, MSE, MAE 등이 있습니다.

RSS : 예측값과 실제값의 오차의 제곱합
MSE : 오차의 제곱의 평균
MAE : 오차의 절댓값의 평균

MSE의 경우 오차의 제곱으로 계산하기 때문에 outlier(이상치)에 대해 민감하게 반응합니다. outlier가 많아면 MSE가 크게 나올 것입니다.

MAE의 경우 변동치가 큰 지표와 낮은 지표를 같이 예측하는데 효과적입니다.

둘 다 간단한 평가 방법이고 직관적으로 해석할 수 있지만 평균을 사용하기 때문에 데이터 크기에 의존한다는 단점이 있습니다.

R2(결정계수)

R2는 1-(MSE/전체분산)으로 계산하며 MSE를 전체 데이터의 분산으로 나누기 때문에 회귀 모델의 설명력을 표현하는 지표가 됩니다.

1에 가까울수록 높은 성능의 모델이라고 할 수 있습니다.

분류 metric

분류 문제에서는 모델이 얼마나 잘 맞추냐를 측정하기 위해 Confusion Matric를 활용합니다.

Confusion Matrix

여기서 앞자리에 있는 알파벳 (T or F)는 모델이 예측한 결과가 맞았느냐 틀렸느냐를 의미하고 뒷자리에 있는 알파벳 (P ro N)은 모델이 무엇이라고 예측했는지를 나타냅니다.

예를 들어 TP라면 뒷자리가 P이므로 모델이 positive라고 예측했고 앞자리는 T이므로 맞췄다는 의미입니다.
TN이라면 뒷자리가 N이므로 모델은 negative라고 예측했고 앞자리는 T이므로 맞췄다는 의미입니다.
FP라면 모델이 positive라고 예측했고 틀렸다는 의미입니다.

Precision

정밀도라고 하며 TP/(TP+FP)로 계산합니다.

모델이 P라고 예측한 것들 중 맞춘 것들의 비율입니다.

Recall

재현율이라고 하며 TP/(TP+FN)으로 계산합니다.

분모가 TP+FN이므로 전체 정답의 수를 의미하고 분자가 TP이므로 모델이 맞춘 개수를 의미합니다.

따라서 전체 정답들 중에 모델이 맞춘 것의 비율을 의미합니다.

F1 score

F1 score는 precision과 recall을 조화평균한 값입니다.

조화평균을 사용한다면 P와 R 중 더 작은 값에 가깝에 결과를 뱉습니다.

Reference

https://mole-starseeker.tistory.com/30

Hansss

딥러닝 연습생

이전 포스트