📚 정확도
가장 간단한 분류 모델 평가는 정확도를 이용한 방법이다.
정확도=표본크기∑참양성+∑참음성
직관적으로 이해할 수 있다.
📚 혼동행렬
- 분류 결과를 가장 잘 나타내는 행렬
📚 정밀도
- 정밀도는 예측된 양성 결과의 정확도.
정밀도=∑참양성+∑거짓양성∑참양성
📚 재현율(민감도)
- 양성 결과를 예측하는 모델의 능력 평가 척도.
재현율=∑참양성∑거짓음성∑참양성
📚 특이도
- 음성 결과를 정확히 예측하는 능력.
특이도=∑참음성+∑거짓양성∑참음성
📚 ROC 곡선
- 재현율과 특이도 사이에는 시소 관계가 있다(서로 반비례한다).
- 이를 곡선으로 나타낸 것을 ROC 곡선이라고 한다.
📚 AUC
- ROC 곡선만으로는 분류기 성능에 관한 단서를 얻을 수 없다
- 하지만 그래프 아래 면적을 구함으로써 AUC(Area Underneath the Curve)값을 구할 수 있는데, 이게 클수록 성능이 좋은 분류기.
- 값이 1이면 0을 1로 잘못 예측하는 경우가 없다는 것이고, 0.5면 최악 !
📚 리프트(이득)
- 무작위 추출에서 0.1%의 정확도, 상위 10%에서 0.3%의 정확도라면, 이 알고리즘은 상위 10%에서 3의 리프트를 가지는 것.
- 이를 위해 누적 이득 차트를 그린다. 대각선은 임의추출이다.
- 1을 얼마나 잘 분류해내는지 측정하는 방법.