로지스틱 회귀
- 종속변수가 반드시 범주형(아상/다항)
- 혼동행렬
- 정확도(Accuracy)
- 정밀도(Precision)
정밀도 : 예측이 참일 경우 실제로 참인 경우
- 재현율(Recall, TPR)
- 위양성율(Fallout, FPR)
- 특이성(Specificity, TNR)
- Odds Ratio (오즈비 또는 승산비)
02-로지스틱회귀.ipynb
- 모델을 확률로 구분하기 때문에 예측값을 0.5를 기준으로 참/거짓 판단.
- logit 모듈을 사용.
- 설명력(의사결정계수)가 낮다고 무조건 데이터를 폐기하지는 않음. 정확도가 더 중요하기 때문
- 혼동행렬 사용
실제 데이터와 예측 데이터를 입력해 도출할 수 있다.
- ROC Curve
ROC Curve를 사용해 분석의 시각화 진행
정확도가 약하면 정확도를 높이기 위한 방법(전처리 등)을 고민
helper.py
로지스틱 회귀 모듈 생성
Python Getter Setter를 사용해 Class에서 getter/setter를 비교적 쉽게 생성할 수 있다.
로지스틱회귀+더미변수
dmatrix 모듈을 사용
이미 라벨링 처리된 데이터는 구분을 위해 C()를 사용
특정 컬럼 표준화
다양한 방법으로도 정확도가 개선되지 않으면 표본, 데이터 수 추가 등의 방법으로 정확도 개성을 유도.