TIL-분류평가지표

HJ·2024년 6월 11일

ML_TIL

목록 보기

8/13

회귀분석이 숫자를 예측하고 실제 값과 평가했던 것처럼, 분류라는 문제를 평가하긴 쉽게 보인다. 예를 들어, 맞춘 정답을 전체 데이터의 개수로 나누면 될 것처럼 보이지만 과연 그럴까?

러닝이는 끝내주는 데이터 분석가라고 소문나있다. 이 친구는 병원에 암을 예측하는 진단 소프트웨어를 개발 해달라는 요청을 받고 납품하는 상황이다. 그런데 너무 귀찮은 나머지 모든 환자를 정상이라고 판정하는 '암 예측 모델'을 만들었다.
암 예측 모델 : 무조건 환자가 음성(정상인)이라고 판정
- 100명의 환자 입실, 95명은 음성(정상), 5명은 양성(암환자)
- 위에 따르면 암 예측 모델의 정확도는 95%
정확도는 매우 높은 것 같지만 실제로 양성(암 환자)은 하나도 못 맞췄다. 이런 사기를 잘 걸러내기 위한 지표를 만들어야한다.

: 실제 값과 예측 값에 대한 모든 경우의 수를 표현하기 위한 2×2 행렬

1. 정밀도(Precision) : 모델이 양성 1로 예측한 결과 중 실제 양성의 비율(모델의 관점)
"내가 예측했는데, 얼마 맞췄어!"

2. 재현율(Recall) : 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비율(데이터의 관점)
"실제 암환자 중에 모델이 얼마나 맞췄어!"

3. F1-Score : 정밀도와 재현율의 조화 평균
*조화평균이란? 1/a + 1/b로 구하는 것.

4. 정확도(Accuracy) : 맞춘 것(모든 True 값 더한 것) / 전체 데이터

TP : 실제-양성, 예측-양성 = 올바르게 분류 → 0명
FP : 실제-음성, 예측-양성 = 잘못 분류 → 0명
FN : 실제-양성, 예측-음성 = 잘못 분류 → 5명
TN : 실제-음성, 예측-음성 = 올바르게 분류 → 95명
- 정밀도는 TP/TP+FP = 0/0+0 = 정의되지 않음(division by zero)
- 재현율은 TP/TP+FN = 0/0+5 = 0
- 결과적으로 F1-Score는 2 00/0+0 = 0
  = 제대로 작동 안한다.

First time, Last time, Every time.