- Accuracy
- 설명: 전체 예측 중 올바르게 예측한 비율을 나타냄.
- 데이터 특성: 클래스가 균형을 이루는 데이터셋에 유용함(균형데이터)
- AUC(Area Under the ROC Curve)
- 설명: ROC 곡선 아래 면적으로, 모델의 분류 성능을 전체적으로 평가함. 0.5는 무작위 추측, 1은 완벽한 모델을 의미함.
- 데이터 특성: 클래스 불균형 데이터에서도 유용하며, 모델의 분류 능력을 종합적으로 평가하는데 적합함.
- 다양한 임계값에서의 모델 성능을 평가할 때 유용함.
- 임계값(threshold)은 분류 모델에서 예측을 결정하기 위해 사용하는 기준
- 모델이 각 데이터 포인트를 특정 클래스에 할당할 확률을 계산하는데, 이 확률이 임계값을 넘으면 해당 클래스로 분류하고, 그렇지 않으면 다른 클래스로 분류함.
- Recall(재현율)
- 설명: 실제 True 클래스 중에서 올바르게 True로 예측한 비율
- 데이터 특성: True 클래스를 놓치는 것이 큰 문제가 되는 경우(예: 질병진단)
- Precision(정밀도)
- 설명: True로 예측한 것 중에서 실제로 True인 비율
- 데이터 특성: 잘못된 True예측이 큰 비용을 초래하는 경우(예: 스팸필터링)
- F1 score
- 설명: Precision과 Recall의 조화 평균으로, 두 지표의 균형을 평가함.
- 데이터 특성: 클래스는 불균형 데이터에서도 유용하며, 두 균형을 중요시하는 경우 사용함.
- Kappa(Cohen's Kappa)
- 설명: 관찰된 정확도와 예측되는 정확도 간의 차이를 평가함. 관찰된 정확도가 우연에 의한것인지 아닌지를 측정함.
- 데이터 특성: 단순한 정확도보다 모델의 진정한 예측력을 평가하는데 유용함.
- MCC
- 설명: 전체적인 예측 성능을 평가하는 지표로, -1(완전한 오류)에서 1(완벽한 예측) 사이의 값을 가짐.
- 데이터 특성: 균형 데이터 및 불균형 데이터에서 둘 다 사용 가능하며, 모델의 예측 능력을 종합적으로 평가하는 데 적합함.