분류모델 평가지표

leegahee·2024년 12월 24일

개념정리

목록 보기
3/17

분류 모델 평가 지표

분류모델이란?

input data 를 사전에 미리 정해놓은
지도학습 중 하나이다,
예시)
< ML >

  • 선형모델
    : 로지스틱 회귀 , SVM(소프트 벡터 머신)
  • 트리기반
    : 의사결정나무, 랜덤포레스트, XGBoost, LighGBM, CatBoost
  • 거리기반
    : K-nn

< DL >

  • 다층 퍼셉트론(MLP)
  • 이미지 분류
    : CNN(합성곱 신경망)
  • 텍스트 분류
    : RNN(순환 신경망) , 트렌스 포머
  • 멀티모달 트랜스 포머

< etc >

  • 이상탐지 분류
  • 시계열 분류

활용사례)

  • 스팸메일 분류
  • 이미지 분류

분류모델에 평가지표가 필요한 이유?

모델의 성능평가를 하는 이유
실제값과 예측값의 차이(=오차) 를 구하여 모델이 얼마나 예측을 잘 했는지 알아보기 위해
정답지가 필요하므로 답이 있는 지도학습에서만 성능평가를 할 수 있다.

혼동행렬(Confusion Matrix)

실제/예측예측 : Positive(O)예측 : Negative(X)
실제 : Positive(O)True Positive(예측 :O / 실제 : O )False Negative (예측 :X / 실제 : O)
실제 : Negative(X)False Positive(예측 :O / 실제 : X)True Negative (예측 :X / 실제 : X )
  • True Positive
    : 실제 양성인것을 양성으로 예측
    eg) 실제 질병이 있는 사람이 질병이 있다고 예측

  • False Positive
    : 실제 음성인것을 양성으로 잘못 예측
    eg) 질병이 없는 사람을 질병이 있다고 예측

  • False Negative
    : 실제 양성인것을 음성으로 잘못 예측
    eg) 질병이 있는 사람을 질병이 없다고 예측

  • True Negative
    : 실제 음성인것을 음성으로 예측
    eg) 질병이 없는 사람을 질병이 없다고 예측

정확도 (Accuracy)

: 실제데이터가 예측 데이터와 얼마나 같은지 판단
얼마나 정확하게 예측했는가
데이터가 불균형 하지 않을때 사용(불균형 데이터에서는 과대평가의 가능성이 있다)

정확하게 예측한 데이터 \ 전체데이터

정밀도 (Precision)

: 양성으로 분류한 데이터 중 실제 양성인 데이터 / 양성으로 분류한 데이터
False Positive(FP/예측 O 실제 X) 를 줄이는게 중요할때 사용
(잘못된 탐지)
eg) 스팸 메일 필터링, 금융사기 탐지

재현율 (Recall)

: 양성으로 분류한 데이터 중 실제 양성인 데이터 / 실제 양성인 데이터
False Negative(FN/예측 X 실제 O)를 줄이는 것이 중요할때 사용
(누락)
eg) 질병진단, 침입탐지

F-1 Score

: 정밀도와 재현율의 조화평균
정밀도와 재현율을 조화평균을 사용하여 균형있는 평가 제공
불균형 데이터의 경우 효과적으로 평가 가능
정밀도와 재현율간 균형이 중요할때 사용
한쪽 지표가 극단적으로 낮으면 낮아진다

조화평균이란?

a = 정밀도 b = 재현율

0개의 댓글