Logistic Regression
이진 분류
비용 함수(Loss Function)
Maximize Likelihood, Minimize Cross-entropy가 목표
MSE 약점: Local Minimum 생김
Cross Entropy 사용하면 최저점 찾을 수도?
임계값
기본은 0.5
임계값을 낮추면 Recall 높아짐
올리면 Precision 높아짐
선형 회귀와 비교
선형회귀
- 종속변수 = y
- 회귀계수는 해당 독립변수 값이 1 증가할 때의 종속변수 Y의 증가량
- 비용함수는 예측오차의 최소화
로지스틱 회귀
- 종속변수는 logit 확률로부터 도출한 class값
- 회귀계수는 해당 독립변수 값이 1 증가할 때 log(odds) 변화량
- 비용함수는 cross entropy의 최소화 혹은 Log Likelihood의 최대화
평가지표
ROC curve and AUC
Y축이 TPR (True Positive Rate)
Tp+FnTp
X축이 FPR (False Positive Rate)
Fp+TnFp