❤️ Logistic regression의 결과 값은 '확률값'❗❗ 따라서, 이진 분류를 위해서 각 부류의 분류의 기준이 되는 결정 임계값이 필요하다 ❕❕
혼동 행렬의 경우에는 예측값과 실제 값의 상관관계를 나타내며 오류의 경향성을 분석하는데 사용하는 행렬이다.
정확도는 전체 비율 중에서 실제로 내가 맞게끔 예측한 것의 비율을 의미한다.
정확도의 경우 검출에서도 사용이 가능하다.
참 긍정률이란 실제로 맞는 것 중에서 내가 맞다고 예측한 비율을 의미한다.
거짓 긍정률이란 실제로 틀린 것 중에서 내가 맞다고 예측한 비율을 의미한다.
분류 문제에서도 해당 기준의 사용이 가능하다.
정밀도는 실제로 내가 예측한 것들 중에서 실제로 맞는 비율을 의미한다.
재현율은 참 긍정률과 구하는 방법은 같다.
재현율은 실제 중에서 얼마나 많은 것을 찾아냈는가에 대한 비율을 구하는 것이다.
정밀도와 재현율의 관계는 서로 반비례 관계를 나타낸다.
임계값이 작아지게 되면 기준이 완화가 되어 많은 검색이 이루어진다.
많은 분류가 이루어졌기 대문에 그 중 실제에 해당하는 것들의 비율이 높아지게 되면서 재현률의 비율이 증가하게 된다.
반면, 많은 검색들 중 실제로 긍정인 것 중에서 긍정이라고 정확하게 판단한 비율이 줄어들게 되기 때문에 정밀도는 줄어들게 된다.
임계값이 커지게 되면 기준이 엄격하게 적용하게 된다.
따라서 전체에서 내가 맞다고 예측해야하는 상황이 줄어들게 되면서 재현율의 값이 줄어들게 된다.
전체 분류하는 긍정의 개수가 줄어들게 되면서 실제인 것 중에서 맞게 끔 잘 판단한 비율이 높아지게 되고 정밀도의 값이 증가하게 된다.
👍 그래서 사용하는 두 가지의 도구를 사용 - ROC 곡선, Precision-Recall 곡선
두 부류에 포함되어지는 데이터 개수가 비교적 비슷하다면 ROC 곡선을 이용하여 성능을 판단한다.
X 축은 거짓 긍정률을 의미하고 Y 축은 참 긍정률을 의미한다
AUC란 곡선 아래의 면적을 의미한다. 해당 면적이 1에 가까울 수록 성능이 높아진다.
두 부류에 포함되어지는 데이터 개수가 비교적 균등하지 않을 때 Precision-Recall 곡선을 사용한다.
Precision-Recall 곡선의 경우에는 x축의 값이 재현율이고 y축의 값이 정밀도를 의미한다.
두가지 사이의 상관관계는 서로 반비례 형태를 가지게 된다.
해당 곡선 또한 AUC의 값이 1에 가까워 질 수록 높은 성능을 가진다고 말 할 수 있다.