분류 성능 평가 지표

민죵·2024년 9월 8일
0

GNN공부

목록 보기
8/12

https://da-journal.tistory.com/entry/%ED%8F%89%EA%B0%80-%EC%A0%95%ED%99%95%EB%8F%84 : 링크를 참조한 게시글입니다.

분류 (Classification) 성능 평가 지표

정확도 Accuracy
오차 행렬 Confusion Matrix
정밀도 Precision
재현율 Recall
F1 스코어
ROC AUC

정확도

정확하게 예측한 데이터 건수 / 전체 예측 데이터 건수

  • 직관적으로 모델 예측 성능을 나타내는 평가 지표
  • 이진 분류의 경우 정확도 하나만 갖고 성능을 평가하지 않는다.
  • 불균형한 레이블 값 분포에서 ML모델의 성능을 판단할 경우, 적합한 평가 지표가 아니다.

오차 행렬 Confusion Matrix

  • 이진 분류의 예측 오류가 얼마인지와 어떠한 유형의 예측 오류가 발생하는지 나타내는 지표

  • 정확도 = 예측 결과와 실제 값이 동일한 건수 / 전체 데이터 수 = (TP+TN)/(TN+TP+FN+FP)


confusion_matrix 출력 방법


from sklearn.metrics import confusion_matrix

#y_test: 실제 결과, fakepred: 예측 결과
confusion_matrix(y_test, fakepred)
> array([[405(TP), 0(FP)],
         [45(FN), 0(TN)]]
         # 이렇게 불균형한 셋은 쓰면안된다.
         

정밀도(Precision)와 재현율(Recall)

  • 정밀도 = TP / (FP+ TP) = 예측을 P로한 대상중에 실제 P인 데이터의 비율
  • 재현율 = TP / (FN + TP) = 실제 값이 P인 대상중에서 예측과 실제값이 P로 일치한 데이터의 비율
profile
빅데이터 / 인공지능 석사 과정 (살아남쨔 뀨륙뀨륙)

0개의 댓글