머신러닝 및 딥러닝 모델의 성능을 평가하는 여러 가지 지표가 있습니다. 이러한 지표들은 문제의 유형(회귀, 분류, 클러스터링 등)에 따라 다르게 사용됩니다. 아래는 주요 평가 지표들의 목록입니다:
-
분류 문제에 대한 평가 지표:
- 정확도 (Accuracy): 전체 예측 중 올바른 예측의 비율
- 정밀도 (Precision): True Positive 예측의 정확도
- 재현율 (Recall) or 민감도 (Sensitivity): 전체 Positive 중에 모델이 True Positive로 올바르게 예측한 비율
- F1 스코어 (F1 Score): 정밀도와 재현율의 조화 평균
- ROC 곡선 (Receiver Operating Characteristic Curve)와 AUC (Area Under the Curve)
- Matthews Correlation Coefficient (MCC)
- 로그 손실 (Log Loss)
-
회귀 문제에 대한 평가 지표:
- 평균 제곱 오차 (Mean Squared Error, MSE)
- 평균 절대 오차 (Mean Absolute Error, MAE)
- 평균 제곱근 오차 (Root Mean Squared Error, RMSE)
- R-제곱 (R-squared, 결정 계수)
-
클러스터링에 대한 평가 지표:
- 실루엣 점수 (Silhouette Score)
- Davies-Bouldin Index
- Adjusted Rand Index (ARI)
-
랭킹 및 추천 시스템에 대한 평가 지표:
- 정밀도@k (Precision@k)
- 재현율@k (Recall@k)
- 평균 정밀도 (Mean Average Precision, MAP)
- 정규화 할인 누적 이득 (Normalized Discounted Cumulative Gain, NDCG)
-
시계열 예측에 대한 평가 지표:
- MAPE (Mean Absolute Percentage Error)
- MASE (Mean Absolute Scaled Error)
이 외에도 특정 분야나 애플리케이션에 따라 다양한 평가 지표들이 사용됩니다. 사용되는 평가 지표는 문제의 특성, 비즈니스 목표, 데이터의 특징 등 여러 요인에 따라 결정됩니다.