머신러닝의 평가지표

스르륵·2021년 4월 17일
0

부트캠프 정리하기

목록 보기
8/12
post-custom-banner

머신러닝 모델을 평가하는 평가지표의 종류와 장단점 혹은 언제 쓰이는지 알아보자

  • classification
    - precision
    - recall
    - f1-score
    - ROC, AOU
  • regression
    - MSE, MAE

Bias, Variance Trade-off


low bias - low variance가 가장 이상적인 모델이지만 현실적으로는 둘 사이를 타협하며 성능을 향상시켜 가야한다.

classification metrics

Accuracy가 가장 일반적으로 쓰이지만 단점이 있음! 예를들면, 실제 데이터 100개 중 80개가 False, 20개가 True일때, 모델의 예측결과가 전부 False로 예측해도 accuracy는 80%가 된다. 하지만 task에 따라 이러한 평가지표가 올바른 결론을 도출하지 못할 수 있음

ex) 암 환자 판별하는 경우...
환자 수 보다 건강한 사람이 훨씬 많을 것. 그렇다면 실제 환자 수 중 환자로 판별된 수를 보는 것이 더 정확한 성능 지표가 될 것 (Recall)


1) Precision

Precision=TPTP+FPPrecision = \frac{TP}{TP + FP}

모델이 positive로 분류한 것들 중 실제 positive인 비율

2) recall

Recall=TPTP+FNRecall = \frac{TP}{TP + FN}

실제로 positive인 것들 중 positive로 분류된 것의 비율

3) F1-score

F1=2precisionrecallprecision+recallF1 = 2*\frac{precision * recall}{precision + r ecall}

precision과 recall의 조화평균을 통해 극단적 이상치에 대응한다.

precision-recall trade off

precision과 recall은 위에서 본 bias, variance trade-off와 같은 관계를 가지고 있다. 둘 중 하나를 극단적으로 높이면 나머지는 낮아질 수 밖에 없다. 이때 분류 결정 threshold를 통해 둘을 조절하게 된다.

  • threshold 상승 --> positive로 판단이 더 빡빡해짐 --> FP낮아짐 --> precition 상승
  • threshold 하강 --> positive로 판단이 느슨해짐 --> FP늘어남 --> precision 하락

recall에서도 비슷한 결과가 나온다.

  • threshold 상승 --> FN 증가 --> recall 하락
  • threshold 하락 --> FN 감소 --> recall 상승

Regression Metric

1) MSE

  • Mean Squared Error
  • 1Ni=1N(yiyi^)2\frac{1}{N}\sum_{i=1}^{N}(y_{i}-\hat{y_{i}})^{2}
  • 극단적 oulier에 취약할 것
  • 예측값의 평균 squared error를 계산

2) MAE

  • Mean Absolute error
  • 1Ni=1Nyiyi^\frac{1}{N}\sum_{i=1}^{N}|y_{i}-\hat{y_{i}}|
  • finance에서 널리 사용된다고 한다
  • robust to outlier
profile
기록하는 블로그
post-custom-banner

0개의 댓글