[통계] 분류 모델 평가

hyun·2022년 8월 31일
0

통계

목록 보기
34/37

📚 정확도

가장 간단한 분류 모델 평가는 정확도를 이용한 방법이다.

정확도=양성+음성표본크기정확도=\frac{\sum{참\,양성+\sum참\,음성}}{표본크기}

직관적으로 이해할 수 있다.

📚 혼동행렬

  • 분류 결과를 가장 잘 나타내는 행렬

📚 정밀도

  • 정밀도는 예측된 양성 결과의 정확도.
    정밀도=양성양성+거짓양성정밀도=\frac{\sum{참\,양성}}{\sum{참\,양성}+\sum{거짓\,양성}}

📚 재현율(민감도)

  • 양성 결과를 예측하는 모델의 능력 평가 척도.
    재현율=양성양성거짓음성재현율=\frac{\sum참\,양성}{\sum참\,양성\sum거짓\,음성}

📚 특이도

  • 음성 결과를 정확히 예측하는 능력.
    특이도=음성음성+거짓양성특이도=\frac{\sum참\,음성}{\sum참\,음성+\sum거짓\,양성}

📚 ROC 곡선

  • 재현율과 특이도 사이에는 시소 관계가 있다(서로 반비례한다).
  • 이를 곡선으로 나타낸 것을 ROC 곡선이라고 한다.

📚 AUC

  • ROC 곡선만으로는 분류기 성능에 관한 단서를 얻을 수 없다
  • 하지만 그래프 아래 면적을 구함으로써 AUC(Area Underneath the Curve)값을 구할 수 있는데, 이게 클수록 성능이 좋은 분류기.
  • 값이 1이면 0을 1로 잘못 예측하는 경우가 없다는 것이고, 0.5면 최악 !

📚 리프트(이득)

  • 무작위 추출에서 0.1%의 정확도, 상위 10%에서 0.3%의 정확도라면, 이 알고리즘은 상위 10%에서 3의 리프트를 가지는 것.
  • 이를 위해 누적 이득 차트를 그린다. 대각선은 임의추출이다.
  • 1을 얼마나 잘 분류해내는지 측정하는 방법.

0개의 댓글