ROC-AUC (Receiver Operating Characteristic - Area Under the Curve)는 회귀 문제에서 자주 쓰이는 성능 평가 지표입니다. 이 지표를 단순히 분류 문제에 적용하면 여러 문제가 발생합니다. 이 글에서는 그 이유와 ROC-AUC가 분류 문제에서 어떻게 사용되어야 하는지 설명합니다.
일반적인 분류 문제에서는 정확도(Accuracy)나 F1 스코어 같은 지표를 사용하여 모델의 성능을 평가합니다. 그러나 ROC-AUC는 이러한 지표와는 다르게 작동합니다. 다른 지표들은 맞췄는가 틀렸는가와 같이 이진 분류로 성능을 평가하지만 ROC-AUC는 예측된 확률값을 기반으로 평가되기 때문에 predict한 결과에 바로 ROC-AUC 계산을 해버리면 지표가 더욱 낮게 나옵니다.
이 문제는 predict를 사용했을 때, 0 과 1이라는 예측값만 나오고 확률값이 나오지 않기 때문이므로 predict 함수가 아닌 predict_proba함수를 사용함으로써 해결할 수 있습니다.

파란색 선은 Classification 문제를 predict했을때, 주황색 선은 predict_proba했을때, 그래프 모양입니다.