[Pattern Recognition] 09. Model Evaluation

김기진·2025년 12월 22일

pattern-recognition

목록 보기
9/10

분류 (classification)

  • 분류란 무엇인가

    • 데이터에 레이블을 할당을 목표로 하는 지도 학습
    • 분류는 의사 결정 자동화에 도움을 줌
  • 분류 유형

    • 이진 분류
      • 두 가지 클래스만 존재하는 경우
    • 다중 클래스 분류
      • 두 개 이상의 클래스가 존재하는 경우
    • 다중 레이블 분류
      • 각 인스턴스가 여러 클래스에 속할 수 있는 경우
  • 지도학습

    • 레이블이 있는 데이터를 사용하여 모델을 학습
    • 데이터
      • 학습 데이터: 모델이 학습하는데 사용
      • 테스트 데이터: 모델의 정확도를 평가하는데 사용
    • 목표
      • 학습 데이터의 패턴을 학습하여 새로운 데이터에서도 잘 일반화 되도록 하는 것
  • 분류 작동 방식

    1. 데이터를 수집하고 라벨링
    2. 레이블이 지정된 데이터로 분류 모델을 학습
    3. 학습된 모델을 사용하여 새로운 데이터를 분류
  • 분류 알고리즘

    • 로지스틱 회귀
    • SVM
    • k-Nearest Neighbors
    • Decision Trees
    • Neural Networks

평가 지표

  • 오차 행렬: 테스트 데이터를 사용하여 분류 모델의 성능을 설명하는데 사용되는 표
실제 Positive실제 Negative
예측 PositiveTP (True Positive)FP (False Positive)
예측 NegativeFN (False Negative)TN (True Negative)
  • True Positive (TP): 모델이 Positive 클래스를 올바르게 예측함.
  • False Positive (FP): 실제로는 Negative인데 모델이 Positive로 잘못 예측함.
  • False Negative (FN): 실제로는 Positive인데 모델이 Negative로 잘못 예측함.
  • True Negative (TN): 모델이 Negative 클래스를 올바르게 예측함.
  • 정확도 (Accuracy)

    • 공식: Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
    • 의미: 전체 예측 중 올바른 예측의 비율.
  • 정밀도 (Precision): 오탐(FP)을 줄이고 싶을때 유용

    • 공식: Precision=TPTP+FP\text{Precision} = \frac{TP}{TP + FP}
    • 의미:
      • Positive로 예측한 것 중 실제 Positive인 비율.
  • 재현율 (Recall / Sensitivity): 미탐(FN)을 줄이고 싶을때 유용

    • 공식: Recall=TPTP+FN\text{Recall} = \frac{TP}{TP + FN}
    • 의미:
      • 실제 Positive인 것 중 모델이 Positive로 올바르게 예측한 비율.
  • F1 점수 (F1 Score)

    • 공식: F1 Score=2×Precision×RecallPrecision+Recall\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
    • 의미:
      • 정밀도와 재현율의 조화 평균으로, 두 지표의 균형을 맞춤
      • 정밀도와 재현율 사이의 균형이 필요할 때 유용

1종 오류와 2종 오류

  • 1종 오류: FP

  • 2종 오류: FN

  • 1종 오류와 2종 오류는 트레이드 오프 관계

  • 더 치명적인 오류에 가중치를 두어 기대손실을 최소화 해야함

TPR 과 FPR

  • TPR: True Positive / Actual Positive
  • FPR: False Positive / Actual Negative

ROC 커브

  • 데이터가 불균형한 경우 여러 메트릭스를 비교해야함.
  • 그래프 모양
    • 이상적인 모델: FPR 는 낮고 TPR 은 높은것. 그래프가 왼쪽 위 모서리에 붙을 수록 좋음.
    • 랜덤 모델: 동전 던지기 수준의 모델은 대각선(y=x) 직선을 그립니다.

AUC

  • ROC 커브는 그래프라서 비교가 어려움
  • AUC: ROC 커브 아래 면적을 비교

0개의 댓글