Confusion Matrix

짜장범벅·2022년 6월 4일
0

0. Confusion Matrix

confusion matrix는 예측치와 실제값에 대해 true와 false로 구분지어 각각의 case 수를 matrix 형태로 구성한 것을 말한다.

1. Definition of Confusion Matrix

confusion matrix는 다음과 같다.

그림1. confusion matrix

어떤 machine learning기법으로 추론한 값이 [그림1]에서 Predicted Values가 된다. Actual Values는 실제값을 의미한다. [그림1]의 matrix의 element는 각각 다음과 같다.

  • TP(True Positive) : 실제 true값을 true로 올바르게 예측한 경우
  • FP(False Positive 혹은 제1종 오류) : 실제 false값을 true로 잘못 예측한 경우
  • FN(False Negative혹은 제2종 오류) : 실제 true값을 false로 잘못 예측한 경우
  • TN(True Negative) : 실제 false값을 false로 올바르게 예측한 경우

2. Performance Measure with Confusion Matrix

이름에서 볼 수 있듯이 T(True)가 붙으면 예측이 맞은 경우를 의미한다. 반대로 F(False)가 붙으면 예측이 틀린 경우이다. 또한 P(Positive)가 붙으면 예측값이 True인 경우를 의미하며 N(Negative)가 붙으면 예측값이 False인 경우를 의미한다. 단순히 FP와 FN이 적으면 좋긴 하다. 하지만 분류기 자체의 성능은 생각보다 복잡한데 우선 이와 관련된 용어를 알아보자.

  • Precision : TPTP+FP\frac{TP}{TP+FP}
  • Recall : TPTP+FN\frac{TP}{TP+FN}
  • Accuracy : TP+TNTP+FP+FN+TN\frac{TP+TN}{TP+FP+FN+TN}
  • Specificity : TNTN+FP\frac{TN}{TN+FP}
  • F1-score : 2×Precision×RecallPrecision+Recall\frac{2\times Precision \times Recall}{Precision+Recall}

단순히 생각하면 Accuracy가 좋으면 될 것 같긴하다. 하지만 다음 case를 생각해보자.

만약 X-ray 사진으로 기흉을 진단하는 분류기가 있다고 생각해보자. TP와 TN을 제외하고 FP와 FN 중에 무엇을 더 중요하게 고려해야는지 생각해보자. FP는 기흉이 아닌 사람의 X-ray 사진을 보고 기흉이라고 진단한 경우다. 그렇다면 더 정밀한 진단 방식을 통해 다시 검증하면 된다. 즉 추가적인 진단 과정이 소모되겠지만 사람이 살아가는데 결국 X-ray의 주인은 기흉이 아니므로 ~군대에 가야한다~ 문제가 되지 않는다. 하지만 FN의 경우를 생각해보자. 기흉인 사람의 X-ray 사진을 보고 기흉이 아니라고 한 경우이므로 ~억울하게 군생활을 해야하고~ 의료적으로 큰 문제가 발생한다. 따라서 이 경우에는 FP보다 FN을 더 중요시 여겨야 한다.

하지만 때때로는 FP가 더 중요한 경우도 있다. 따라서 머신 러닝 프로젝트의 특성을 잘 이해해 어떤 지료를 활용할지 결정하는 것은 매우 중요하다.

profile
큰일날 사람

0개의 댓글