데이터 취업 스쿨 스터디 노트 -(52) 모델평가(Accuracy, Precision, Recall, f1, ROC)

테리·2024년 8월 13일
0

회귀모델 예측 결과는 연속된 변수 값이 된다.

이진 분류

1종 오류: 가설이 아닌데 맞다고 하는거

Accuracy

전체 데이터 중 맞게 예측한 것

Precision(정밀도)

내 모델이 1이라고 예측한 것 중에서 실제 1

스펨메일
ex) 스펨이라고 예측한 메일 중에서 실제로 스펨이 아닌게 있으면 곤란하다.

Recall(재현율)

실제 1들 중에서 1이라고 맞춘 것

놓쳐서는 안되는 지표를 신경써야 할 때 봐야하는 지표가 Recall이다.
ex) 암환자가 아닌데 암환자라고 하는건 그나마 다행이지만 암환자인데 암환자가 아니라고 하는건 큰 문제다.

Fall out

실제 0 중에서 1이라고 잘못 예측한 것

threshold

타이타닉에서 특정 사람의 생존 확률을 반환할 때 predict_proba()를 사용해 0~1사이의 결과를 반환함. 만약 그냥 predict 함수를 사용했다면 1 or 0을 반환함.

predict 함수에서 결과를 반환할 때 판단 기준은 predict_proba()의 결과값을 기준으로 0.5보다 크면 1 작으면 0이라고 판단함. 이때의 0.5라는 기준을 threshold라고 한다.


y_pred는 1이되는 확률을 예측. y_pred의 값이 0.4이면 40%의 확률로 1이 된다는 뜻.
y는 실제값, output for threshold 0.3은 예측한값. threshold 보다 커서 전부 1로 예측 한거다.

F1-Score(조화평균)

ROC와 AUC

ROC 커브 그리기

다시 데이터 읽어오기

간단히 결정나무 적용해보기

각 수치 구해보기

Roc 커브 그리기

0개의 댓글