[ML]머신러닝 평가지표 뜯어보기(confusion matrix,P-R curve, ROC-AUC..)

건너별·2022년 1월 24일
0

ML

목록 보기
12/21

P-R 곡선

  • X축은 recall, y축은 precision


[https://hwi-doc.tistory.com/entry/%EB%AA%A8%EB%8D%B8-%ED%8F%89%EA%B0%80%ED%95%98%EA%B8%B0-%EC%A0%95%ED%99%95%EB%8F%84%EB%A7%8C-%EB%86%92%EC%9C%BC%EB%A9%B4-%EC%A2%8B%EC%9D%80-%EB%AA%A8%EB%8D%B8]

  • 그래프를 확인하여 보면, Recall 값이 증가할수록 Precision 값이 감소하는 형태
  • 우측 상단으로 갈수록 이상적인 모델의 형태
  • 보통 Tradeoff 관계인 두 항목을 판단 가능함

ROC curve(Receiver Opreating Characteristic Curve)

  • 직역하면 수신자 조작 곡선
  • 군사 영역에서 유래된 개념
  • 나중에는 의학 영역에서 발전

  • Classification Model에서 분석 Metric!
  • 가로축은 False Positive Rate
  • 세로축은 True Positive Rate(recall)

TPR(recall)=TPTP+FNTPR(recall) = \frac {TP} {TP + FN}

FPR=FPFP+TN=1specificityFPR = \frac {FP} {FP + TN} = 1 - specificity

Cut-off value

  • class label(정답)을 판단하는 기준이 되는threshold 값
  • 동적인(dynamic) 값
  • 각 cut-off value는 모두 하나의 FPR과 TPR에 대응한다.
  • 이진분류(0 or 1)를 가정할 시, cut- off value를 90% 로 가정했을 시 90% 이상으로 나온 값이 1이 됨.

ROC Curve VS P-R curve?

P-R 곡선과 ROC Curve 공통장점

  • 평가지표의 관계 추이를 알 수 있음

ROC Curve의 장점

  • testset이 균형잡힌 상황이 아니라도 robust하게 성능을 판단한 수 있음
  • 다시말해, testset의 균형도와 상관없이 일관된 성능을 낸다.
  • 양성샘플 대 음성샘플 비율이 매우 적은 (1/1000, 1/10,000) 인 상황에서도 안정적으로 모델 자체 성능 반영

P-R곡선의 장점

  • 특정 데이터셋에 따라 성능이 달라지므로, 이 모델일 특정 데이터 세트상에서 어떤 성능을 내는지 알고 싶다면 P-R 곡선을 선택하는 것이 좋음.

정리

  • ROC curve는 dataset 불균형에 크게 영향받지 않고 성능을 보여줌. 때문에 robust하나 dataset의 분포 및 불균형을 판단하지 못함.
  • P-R 곡선은 데이터셋에 따라 성능이 매우 달라짐. 데이터셋의 균형도 및 분포를 검증하는데 유용.

Reference

profile
romantic ai developer

0개의 댓글