분류 성능 평가: ROC (Receiver Operating Characteristic) 및 AUC (Area Under the Curve)

calico·2025년 11월 5일

Artificial Intelligence

목록 보기
101/175
post-thumbnail

https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=ko#:~:text=ROC%20%EA%B3%A1%EC%84%A0%20%EC%95%84%EB%9E%98%20%EC%98%81%EC%97%AD%20(AUC)%EC%9D%80%20%EB%AC%B4%EC%9E%91%EC%9C%84%EB%A1%9C%20%EC%84%A0%ED%83%9D%ED%95%9C,%EC%9D%8C%EC%84%B1%20%EC%98%88%EC%8B%9C%EB%B3%B4%EB%8B%A4%20%EB%86%92%EC%9D%80%20%EC%88%9C%EC%9C%84%EB%A1%9C%20%EB%A7%A4%EA%B8%B8%20%ED%99%95%EB%A5%A0%EC%9D%84%20%EB%82%98%ED%83%80%EB%83%85%EB%8B%88%EB%8B%A4.


1. ROC 곡선 (Receiver Operating Characteristic Curve)


  • ROC 곡선은 모든 임계값(threshold)에서의 모델 성능을 시각적으로 표현한 그래프입니다.

    • x축은 거짓 양성률(FPR, False Positive Rate),

    • y축은 참 양성률(TPR, True Positive Rate) 을 나타냅니다.

  • 배경

    • “Receiver Operating Characteristic”이라는 용어는
      제2차 세계대전 당시 레이더 감지 실험에서 유래했습니다.
  • 특징

    • 완벽한 모델은 (0,1) 지점에 가까운 궤적을 가집니다.

    • 무작위 추측 모델은 (0,0)에서 (1,1)까지의 대각선을 따릅니다.



2. AUC (Area Under the Curve)

  • ROC 곡선 아래 면적을 의미하며, 임의로 선택된 양성 예시가 음성 예시보다 더 높은 점수를 받을 확률을 나타냅니다.

  • 해석 기준

    • AUC = 1.0 → 완벽한 모델

    • AUC = 0.5 → 무작위 추측과 동일

    • AUC < 0.5 → 무작위보다 나쁜 모델 (예측 반전 필요)

  • 예시

    • 스팸 분류기의 경우

      • AUC = 1.0 → 모든 스팸 이메일을 정확히 높은 확률로 예측

      • AUC = 0.5 → 동전 던지기 수준

      • AUC = 0.3 → 오히려 반대로 예측 (스팸을 정상으로, 정상 메일을 스팸으로)


3. PR 곡선 (Precision-Recall Curve)


  • 언제 사용하나

    • 데이터 불균형(예: 양성 클래스가 매우 적음) 상황에서 정밀도(Precision)재현율(Recall) 관계를 시각화하는 것이 더 유용합니다.
  • 축 구성:

    • x축: 재현율(Recall)

    • y축: 정밀도(Precision)



4. 모델 비교 및 임계값 선택


  • AUC 활용

    • 데이터의 클래스 비율이 균형적일 때, AUC가 더 큰 모델이 더 좋은 모델입니다.

      • 모델 A → AUC = 0.65

      • 모델 B → AUC = 0.93

      B 모델이 더 우수

  • ROC 곡선의 해석

    • (0,1)에 가까운 지점이 가장 좋은 성능을 보입니다.
  • 임계값 선택 기준

    • 거짓 양성(FP) 의 비용이 크면 → FPR이 낮은 지점(A)

    • 거짓 음성(FN) 의 비용이 크면 → TPR이 높은 지점(C)

    • 균형을 중시할 경우 → 중간 지점(B)



5. 연습 예시

모델AUC성능 판단
ROC가 (0,0)→(1,1)로 매끄럽게 상승0.77가장 좋은 모델
지그재그 형태0.623중간 수준
오른쪽으로 갔다가 위로 꺾임0.31무작위보다 나쁨
거의 대각선0.508무작위와 유사

AUC가 0.5 미만이면, 예측 결과를 반전시키면 성능이 향상될 수 있습니다.


6. 실제 예시: 스팸 분류기

  • 상황:
    “포지티브 = 스팸”, “네거티브 = 정상 메일”

    → 비즈니스상 중요한 메일이 스팸함으로 가는 것(FN)이 더 큰 손실.

  • 해석

    • 이 경우 거짓 음성(FN) 을 최소화해야 하므로 TPR이 높은 점 C 쪽의 임계값이 더 바람직합니다.



정리 요약

구분의미이상적 값
TPR (재현율)실제 양성을 잘 맞춘 비율1.0
FPR실제 음성을 잘못 양성으로 판단한 비율0.0
AUCROC 곡선 아래 면적1.0
좋은 모델의 특징(0,1)에 가까운 ROC 곡선높을수록 좋음



profile
All views expressed here are solely my own and do not represent those of any affiliated organization.

0개의 댓글