이 지표들은 분류 모두에 적용되는 지표이지만,
*특히 이진 분류에서 더욱 중요하게 강조하는 지표
정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수
ex)
축구를 한 사람 : 90명
축구를 안한 사람 : 10명
여기서 모두 다 축구를 했다고 분류해도 정확도는 90%이기 때문
: 이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함게 나타내는 지표
TN은 예측값을 Negative 값 0으로 예측했고 실제 값 역시 Negative 값 0
TP는 예측값을 Positive 값 1로 예측했고 실제 값 역시
Positive 값 1
FN는 예측값을 Negative 값 0으로 예측했는데 실제 값은
Positive 값 1
FP는 예측값을 Positive 값 1로 예측했는데 실제 값은
Negative 값 0
정밀도 = TP / (FP + TP)
정밀도 : 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율, 양성 예측도라고도 불림
재현율 = TP / (FN + TP)
재현율 : 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율, 민감도(Sensitivity) 또는 TPR(True Positive Rate)라고도 불림
F1 스코어 : 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가짐
*ROC곡선과 AUC스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표
ROC곡선 : FPR(False Positive Rate)이 변할 때 TPR(True Positive Rate)이 어떻게 변하는지를 나타내는 곡선
민감도(TPR)는 실제값 Positive(양성)가 정확이 예측돼야 하는 수준을 나타냄(질병이 있는 사람은 질병이 있는것으로 양성 판정)
특이성(TNR)은 실제값 Negative(음성)가 정확이 예측돼야 하는 수준을 나타냄(질병이 없는 건강한 사람은 질병이 없는 것으로 음성 판정)
가운데 직선은 ROC곡선의 최저 값
ROC 곡선이 가운 직선에 가까울 수록 성능이 떨어지는 것이며, 멀어질수록 성능이 뛰어난 것(보라색)
ROC 곡선은 FPR을 0부터 1까지 변경하면서 TPR의 변화 값을 구함
- 어떻게?
분류 결정 임곗값을 변경하면서.. 분류 결정 임곗값은 Positive 예측값을 결정하는 확률의 기준이기 때문에 FPR을 0으로 만들려면 임곗값을 1로 지정하면됨
(아예 Positive로 예측하지 않기 때문에 FP값이 0이 되므로 자연스럽게 FPR은 0이 됨)
- FPR을 1로 만들려면? TN을 0으로 만들어주면됨
어떻게?
분류 결정 임곗값을 0으로 지정하면 분류기의 Positive 확률 기준이 너무 낮아서 다 Positive으로 예측하기 대문에 TN이 0이 되고 FPR 값은 1이됨
결론 : 임곗값을 1부터 0까지 변화시키면서 FPR을 구하고 이 FPR 값의 변화에 따른 TPR 값을 구하는것.
단순히 예측 결과와 실제 결과가 일치하는 지표인 정확도 만으로 머신러닝 모델의 예측 성능을 평가할 수 없음