ROC curve

J. Hwang·2024년 2월 1일
0

Receiver Operating Characteristic (ROC) curve 는 머신 러닝 성능 평가 지표 중 하나이다.
분류가 잘 되었는지 평가할 때, 그 지표들 중 하나로 이전에 정밀도(Precision)와 민감도(Sensitivity)의 개념을 살펴보았다. (참조) 즉 정밀도(=병에 걸린 환자가 양성 판정을 받을 확률)가 높을수록, 그리고 특이도(=병에 걸리지 않은 환자가 음성 판정을 받을 확률)가 높을수록 분류가 잘 된 것이므로, 이 지표들로 그래프를 그려서 분류가 잘 되었는지 평가하는 것이다.

ROC curve는 위의 그림과 같이 가로축이 False positive rate (=1 - 특이도), 세로축이 True positive rate (=민감도)인 그래프이다. 특이도가 높을 수록 (=False positive rate가 낮을수록), True positive rate가 높을수록 분류 성능이 뛰어난 것이므로 왼쪽 상단 (0, 1)에 위치할수록 성능이 좋은 모델이다. 그림에서 보면 파란색, 초록색, 주황색 곡선으로 갈수록 성능이 떨어지는 모델이며 빨간색 점선은 무작위로 분류된 (=성능이 매우 떨어지는) 경우이다.

분류 성능이 뛰어날수록 곡선이 좌측 상단을 지나게 되기 때문에, 분류 성능이 뛰어날수록 이 곡선 아래의 면적도 커질 것이다. 따라서 ROC curve 아래의 면적을 성능 평가의 지표로 사용하게 되는데, 이를 Area Under the Curve (AUC) 라고 한다.

AUC가 1에 가까울수록 우수한 성능이고, 0.5 이하이면 분류 능력이 없는 것으로 본다. 보통 어느 정도의 성능을 낸다고 평가받으려면 AUC가 0.8 이상은 되어야 한다고 한다.

References

https://en.wikipedia.org/wiki/Receiver_operating_characteristic

profile
Let it code

0개의 댓글

관련 채용 정보