머신 러닝으로 데이터 분류를 했을 때, 분류가 정확히 이루어졌는지 판단할 수 있는 성능 평가 지표들 중에는 정밀도(Precision)와 민감도(Sensitivity)가 있다.
이들에 대해 이해하기 위해서는 우선 Type I error와 Type II error을 알아야 한다.
Type I error, Type II error는 통계학에서 가설 검증을 할 때 나오는 개념이다.
위의 표에 직관적으로 정리가 되어있는데, Reality는 현실에서 참인지 거짓인지 여부이고, Measured or Predicted는 측정 혹은 예측을 했을 때 참으로 판정되는지 거짓으로 판정되는지를 보는 것이다.
** Reality에서의 True와 False는 TP, FP, FN, TN에서의 True/False와 의미가 다름에 유의한다.
경우에 따라 달라질 수 있지만, 보통은 Type II error가 Type I error보다 상대적으로 위험하게 여겨진다.
정밀도는 측정 혹은 예측을 해서 참으로 판정되었을 때, 그 측정 혹은 예측이 현실과 일치하는 확률(즉 현실도 참일 확률)을 보는 것이다. 예시로 든 코로나19 진단 키트의 경우로 얘기하면, 진단 키트로 양성 판정을 받았을 때 실제로 그 환자가 코로나19에 걸려있을 확률을 의미하는 것이다.
민감도는 현실에서 참일 때, 측정 혹은 예측을 해서 현실과 일치하는 확률 (즉 측정 혹은 예측에서도 참으로 나올 확률)을 보는 것이다. 코로나19 진단 키트의 예시로 보면, 실제로 코로나19에 확진된 환자가 진단 키트를 이용했을 때 양성으로 판정될 확률을 의미한다. 재현율 (Recall) 이라고도 한다.
특이도는 현실에서 거짓일 때, 측정 혹은 예측을 해서도 거짓으로 나오는 확률이다. 코로나19 진단 키트의 예시로는, 코로나19에 확진되지 않은 환자가 진단 키트를 이용해서 음성 판정될 확률을 의미한다.
FPR은 현실에서 거짓임에도 불구하고 측정 혹은 예측을 해서 참으로 나올 확률이다. 코로나19 진단키트 예시로는, 코로나19에 확진되지 않은 환자가 진단 키트를 이용해서 양성 판정될 확률을 의미한다.
정밀도와 민감도라는 개념을 이용해서 분류기의 성능을 판단할 수 있다.
다만 어떤 지표를 이용해서 성능을 평가할 것인지는 경우에 따라 잘 판단해야 할 것이다.
https://en.wikipedia.org/wiki/Type_I_and_type_II_errors
https://ko.wikipedia.org/wiki/지도_학습