분류알고리즘의 성능지표

hh_mon__a·2024년 6월 28일
0

통계

목록 보기
1/1
  1. Accuracy
    - 설명: 전체 예측 중 올바르게 예측한 비율을 나타냄.
    - 데이터 특성: 클래스가 균형을 이루는 데이터셋에 유용함(균형데이터)

  2. AUC(Area Under the ROC Curve)
    • 설명: ROC 곡선 아래 면적으로, 모델의 분류 성능을 전체적으로 평가함. 0.5는 무작위 추측, 1은 완벽한 모델을 의미함.
    • 데이터 특성: 클래스 불균형 데이터에서도 유용하며, 모델의 분류 능력을 종합적으로 평가하는데 적합함.
    • 다양한 임계값에서의 모델 성능을 평가할 때 유용함.
      - 임계값(threshold)은 분류 모델에서 예측을 결정하기 위해 사용하는 기준
      - 모델이 각 데이터 포인트를 특정 클래스에 할당할 확률을 계산하는데, 이 확률이 임계값을 넘으면 해당 클래스로 분류하고, 그렇지 않으면 다른 클래스로 분류함.

  3. Recall(재현율)
    • 설명: 실제 True 클래스 중에서 올바르게 True로 예측한 비율
    • 데이터 특성: True 클래스를 놓치는 것이 큰 문제가 되는 경우(예: 질병진단)

  4. Precision(정밀도)
    • 설명: True로 예측한 것 중에서 실제로 True인 비율
    • 데이터 특성: 잘못된 True예측이 큰 비용을 초래하는 경우(예: 스팸필터링)

  5. F1 score
    • 설명: Precision과 Recall의 조화 평균으로, 두 지표의 균형을 평가함.
    • 데이터 특성: 클래스는 불균형 데이터에서도 유용하며, 두 균형을 중요시하는 경우 사용함.

  6. Kappa(Cohen's Kappa)
    • 설명: 관찰된 정확도와 예측되는 정확도 간의 차이를 평가함. 관찰된 정확도가 우연에 의한것인지 아닌지를 측정함.
    • 데이터 특성: 단순한 정확도보다 모델의 진정한 예측력을 평가하는데 유용함.

  7. MCC
    • 설명: 전체적인 예측 성능을 평가하는 지표로, -1(완전한 오류)에서 1(완벽한 예측) 사이의 값을 가짐.
    • 데이터 특성: 균형 데이터 및 불균형 데이터에서 둘 다 사용 가능하며, 모델의 예측 능력을 종합적으로 평가하는 데 적합함.
profile
데이터분석/데이터사이언스/코딩

0개의 댓글