분류에서 예측된 결과와 살제 결과에 대한 레코드의 개수를 표시한 테이블(이진의 경우 2X2)
전체 범주를 모두 바르게 맞춘 경우를 전체 수로 나눈 값입니다
Positive로 예측한 경우 중 올바르게 Positive를 맞춘 비율
- 귤 공장에서 품질 좋은 귤을 고르는 경우
- 이때 품질 좋은 귤에 대한 기준을 높게 설정하여 상품성이 떨어지는 귤들을 제외시킬 수 있습니다.
- 만약 품질 좋은 귤을 걸러내는 기준이 낮다면 불량한 귤도 들어갈 수 있게 됩니다.
실제 Positive인 것 중 올바르게 Positive를 맞춘 것의 비율
- 전쟁 중 위치를 잘못 파악한 경우
- A지역에 적군이 실제로 오지 않는데 온다고 예측하여 군사를 배치하면 피해는 없다.(FP)
- 그러나 A지역에 적군이 실제로 오는데 오지 않는다고 예측하여 군사를 배치하지 않으면 피해가 발생한다.(FN)
- 따라서 이 경우 재현율이 중요하다.
정밀도와 재현율의 조화평균(harmonic mean)입니다:
분류 모델에서 확률값을 분류하는 기준이 되는 수치
- 증가할 경우
- positive 범주의 재현율 : 감소
- negative 범주의 재현율 : 증가
- positive 범주의 정밀도 : 증가
- negative 범주의 정밀도 : 감소
- 감소할 경우
- positive 범주의 재현율 : 증가
- negative 범주의 재현율 : 감소
- positive 범주의 정밀도 : 감소
- negative 범주의 정밀도 : 증가
실제로 참인 것을 참이라고 잘 예측할 TPR과 실제로 거짓인 것을 참이라고 잘못 예측할 FPR의 관계로 표현
Recall(재현율)
Sensitivity =
Fall-out(위양성률)
재현율을 높이기 위해서는 Positive로 판단하는 임계값을 계속 낮추어 모두 Positive로 판단하게 만들면 됩니다. 하지만 이렇게 하면 동시에 Negative이지만 Positive로 판단하는 위양성률도 같이 높아집니다.
재현율은 최대화 하고 위양성률은 최소화 하는 임계값이 최적의 임계값입니다
ROC curve의 아래 면적
- AUC값이 1과 가까이 높을 수록 더 좋은 분류기이며 이는 0을 1로 잘못 예측한 경우 없이, 1을 정확히 분류하는 완벽한 분류기를 의미합니다.
- auc score가 중요한 경우 → 모델의 성능을 측정해야 하는 경우
roc_auc_score
를 구하는 코드와 정밀도, 재현율을 구하는 코드의 차이