모델 평가 지표에 대해 공부하다 보면 한 번쯤 헷갈리는 개념들이 있습니다. 특히 F1 Score, Dice Score, Precision, Recall, 그리고 Specificity는 용어도 비슷하고 수식도 헷갈릴 수 있어요.
오늘은 이 지표들이 어떤 의미를 갖고 어떻게 계산되는지, 그리고 서로 어떤 관계가 있는지 간단하고 명확하게 정리해보겠습니다.
1. F1 Score와 Dice Score는 같은 개념일까?
결론부터 말하면, 네! F1 Score와 Dice Coefficient(Dice Score)는 사실상 같은 수학적 개념입니다.
두 지표 모두 정밀도(Precision) 와 재현율(Recall) 의 조화평균(harmonic mean) 으로 정의됩니다.
-
F1 Score 수식:
F1=precision+recall2×precision×recall
-
Dice Score 수식:
Dice=∣A∣+∣B∣2×∣A∩B∣
여기서 ∣A∩B∣는 두 집합의 교집합의 크기이며, ∣A∣와 ∣B∣는 각 집합의 크기입니다. 결국 두 수식은 형태는 다르지만 의미는 같습니다.
다만, 용도에 차이가 있어요:
- F1 Score는 분류(Classification) 문제에서 주로 사용
- Dice Score는 이미지 분할(Segmentation) 문제에서 자주 사용
2. Precision과 Recall은 뭘 의미할까?
2.1. Precision (정밀도)
예측이 얼마나 정확했는지를 나타냅니다. 즉, 모델이 Positive라고 예측한 것들 중 실제로 Positive인 비율이에요.
Precision=TP+False Positives (FP)True Positives (TP)
예: 모델이 "양성"이라고 한 10건 중 실제로 7건만 진짜 양성이었다면, Precision은 0.7입니다.
2.2. Recall (재현율, 민감도)
실제로 Positive인 사례 중 모델이 잘 찾아낸 비율입니다.
Recall=TP+False Negatives (FN)True Positives (TP)
예: 실제 양성이 100건인데 모델이 그 중 80건을 맞췄다면, Recall은 0.8입니다.
3. Recall은 Negative Case에 대한 정확도일까?
아닙니다! Recall은 오직 Positive한 사례에 대해서만 측정됩니다.
반대로, Negative Case에 대한 정확도를 알고 싶다면 Specificity라는 지표를 확인해야 합니다.
Specificity (특이도)
Specificity=TN+False Positives (FP)True Negatives (TN)
실제로 Negative인 데이터 중에서 모델이 Negative라고 제대로 예측한 비율입니다.
4. 요약 정리표
지표 | 의미 | 수식 |
---|
Precision | 예측한 Positive 중 실제 Positive 비율 | TP+FPTP |
Recall (Sensitivity) | 실제 Positive 중 예측에 성공한 비율 | TP+FNTP |
Specificity | 실제 Negative 중 예측에 성공한 비율 | TN+FPTN |
F1 / Dice Score | Precision과 Recall의 조화평균 | Precision+Recall2×Precision×Recall |