이번 포스팅에서는 분류모델의 평가지표에서 핵심이 되는 TN, TP, FN, FP에 대해 알아보겠습니다.
구체적인 맥락과 함께 이해하기 위해 알 수 없는 유튜브 알고리즘(영상 추천 모델)을 생각해보겠습니다.
이 모델은 어떤 사용자가 특정 영상을 좋아할지, 좋아하지 않을지를 판별하는 역할을 수행합니다.
이 모델에 의한 분류결과는 아래와 같은 그림으로 나타낼 수 있습니다.
각 영역을 간단히 나타내기 위해 TN, TP, FN, FP 와 같은 용어를 쓰는데요. 이 용어를 어떻게 직관적으로 해석하면 좋을지 알아보겠습니다.
먼저 앞글자에 들어가는 T 또는 F 는 예측이 정확했는지 여부를 나타냅니다.
그래서 좋아할 것이라고 예측했는데 실제로 좋아한 경우와 좋아하지 않을 것이라고 예측했는데 실제로 좋아하지 않은 경우의 앞글자는 T이죠.
그리고 뒷글자에 들어가는 P 또는 N 은 무엇으로 에측했는지를 나타냅니다.
1로 예측한 경우는 P, 0으로 예측한 경우는 N이 들어갑니다.
(여기서는 좋아하는 경우를 1, 좋아하지 않는 경우를 0이라고 생각했습니다)
그래서 좋아할 것이라고 예측한 경우는 모두 P 이고 좋아하지 않을 것이라고 예측한 경우는 모두 N이 쓰여있죠.
다시 정리하면 아래와 같습니다.
앞글자: 예측 성공 여부 (성공 T, 실패 F)
뒷글자: 무엇으로 예측했는지 (1 P, 0 N)
이 규칙을 기억해놓는다면 무엇이 무엇인지 정확히 구별해낼 수 있습니다.
그럼 잘 이해했는지를 체크해볼 수 있는 문제를 하나 내겠습니다.
위 그림과 비슷하지만 조금 다른 방식의 아래와 같은 그림을 그려볼 수 있습니다.
스크롤을 내리기 전에 각 영역이 각각 TN, TP, FN, FP 중 어느 곳에 해당하는지 생각해보시길 바랍니다.
(답은 아래쪽에 있습니다
정답은 다음과 같습니다.
다들 잘 맞추셨나요?
다음 포스팅에서는 TN, TP, FN, FP 를 이용하여 모델을 평가하는 다양한 지표들에 대해 알아보도록 하겠습니다.
감사합니다.