Evaluation Metrics for Classification

hyeji·2022년 11월 22일

💡 학습 목표

Confusion matrix 를 만들고 해석할 수 있습니다.
정밀도, 재현율 을 이해하고 사용할 수 있습니다.
ROC curve, AUC 점수 를 이해하고 사용할 수 있습니다.

분류와 회귀에서 사용하는 모델 성능 평가 지표는 각각 다르다.

회귀

MSE, MAE, RMSE, R-square

분류

accuracy, precision, recall, F-beta score, ROC(and AUC)

accuracy(정확도) : 전체 범주를 모두 바르게 맞춘 경우를 전체 수로 나눈 값

TP + TN / Total
- ❓정확도만 사용할 때의 문제점 데이터가 불균형일 때 문제가 생긴다. ex. 1000개의 신발 중 10개만 nike일 때, 모두 nike가 아니라고 예측해도 정확도는 99.9%가 되어버림
precision(정밀도) : positive로 예측했을 때 올바르게 positive를 맞힌 비율

TP / TP + FP
recall(재현율) : 실제 positive인 것 중 올바르게 positive를 맞힌 비율

TP / TP + FN

precision(정밀도)과 recall(재현율)은 상황에 따라 무엇을 더 중요하게 볼지 달라짐

재현율이 더 중요한 경우 : 맞는데 아니라고 하는 게 리스크가 큰 경우
정밀도가 더 중요한 경우 : 아닌건데 맞다고 한 게 더 리스크가 큰 경우

🔎 ex. *암 초기 진단시*에는 **recall(재현율)**이 더 중요함

→ 암으로 진단될 수 있는 경우의 수(FN) 또한 중요한 데이터이고, 암인데 암이 아니라고 하는 것이 위험

그 외) 비가 오는 날 예측, 환자의 입장에서 뇌종양 제거해야 할 때(맞는데 아니라고 생각해서 수술 안 하면 큰일)

스팸메일 분류할 때는 precision(정밀도)이 더 중요함

→ 스팸이 아닌 메일을 스팸으로 분류하는 경우(FP) 위험

그 외) 취향에 따른 영화 추천, 의사 입장에서 뇌종양 제거해야 할 때(아닌데 맞다고 생각해서 수술하면 큰일), 범죄추정(무죄인데 감옥에 갈 경우)

두 System을 비교할 때

System 1 ) precision : 80% , recall : 50%
System 2 ) precision : 70% , recall : 60%

어느 것이 더 좋은지 비교하기 힘듦

→ F-beta 사용!

(1 + beta^2) precision recall / (beta^2precision + recall)

ROC curve

ROC 커브는 이진 분류기의 성능을 표현하는 커브이고, 가능한 모든 임계값에 대해 FPR과 TPR의 비율을 표현한 것

재현율을 최대화하고, 위양성률은 최소화하는 임계값이 최적

임계값 : F/T를 결정하는 기준(분류값을 결정하는 기준)

임계값을 높이면(Positive로 판별하는 기준을 높게 잡으면) 정밀도는 올라가고 재현율은 낮아진다.

반대로 임계값을 낮추면(기준을 낮게 잡으면) 정밀도는 낮아지고 재현율은 높아진다.

❓임계값에 따라 정밀도와 위양성률이 trade-off 되는 이유 임계값이 높아지면 양성으로 예측하는 비율이 줄고(확실한 것만 positive라 예측), 정밀도(TP / TP + FP) 가 높아짐 임계값이 까다로워지면 양성 예측 줄음 -> FP 줄음 & FN 늘음 (trade-off?) T 검정에서 귀무가설을 기각하는 기준 p-value 를 바꿀 때 1종오류와 2종오류의 확률이 바뀌는 것과 같은 원리 같아요 현호님 말씀대로 significance level 이 되는 p-value를 5 → 1퍼로 내린다면 임계점이 더 까다로워지기 때문에 1종오류가 줄어들고 2종오류가 늘어나게 될 것 같아요(확률이) 이 상황으로만 보면 임계값이 높아진다 -> 확실한 것만 1로 찍는다 -> 1로 찍은 것중 정답일 확률(정밀도) 높아짐 -> 실제 1인 것을 1로 잘 예측할 확률(재현율) 낮아짐 의 과정을 겪을 것 같아요

AUC(Area Under the Curve)

ROC curve 아래 영역 넓이를 나타냄

0~1 사이의 값을 가지는데 값이 1에 가까울수록 학습이 잘 되었음을 의미한다.

실제 AUC의 최소값은 0.5

Data Analyst