로지스틱 회귀(Logistic Regression)
선형 회귀를 범주형 데이터 예측에 사용 했을 때 발생하는 문제(Y의 값이 무한히 올라가거나 내려가는 경우)를 해결하기 위해 사용하는 모델
선형 회귀식을 분류 모델에 사용 했을 때, 발생하는 문제
- 원하는건 [0, 1] 의 범주형 데이터 이지만 [-∞, ∞]의 범위를 가진 숫자형 데이터로 나오게됨
1. Odds Ratio (승산)
사건이 일어날 확률 대 사건이 일어나지 않을 확률의 비
P+(x):일어날확률
1−P+(x)P+(x)
- 승산으로 Y의 범위를 [-∞, ∞] 에서 [0, ∞] 까지 줄였지만 아직 범주형 데이터라고 할수 없다.
- X의 범위 또한 [0, ∞] 까지 제한되는 단점이 있다.
2. Log-odds (로그 승산)
f(x)=log(1−P+(x)P+(x))
- 승산에 로그를 취하면 Y의 범위는 [0, 1]까지, X의 범위는 [-∞, ∞]까지 확장된다.
- Y=0.5를 기준으로 X의 값이 양수와 음수를 가지게 된다.
f(x)=ω0+ω1χ1+ω2χ2+...
P+(x)=1+e−f(x)1
로지스틱 회귀의 수학적 설명
승산과 로그 승산
정리
1. 알고리즘의 원리
- 선형 판별식을 찾고 로그 승산을 통해 Y의 범위를 [0, 1]로 변환
2. 전처리 과정
- NaN 처리
- 가변수화
- 변수 간 독립(다중 공선성)
다중 공선성
변수간의 상관도가 높아 데이터 분석 시 계수 추정이 잘 되지 않거나 불안정해지는 경우
분산 팽창 지수(VIF, Variance Inflation Factor)로 확인한다.
성능
- hyper parameter(사용자가 직접 설정해주는 변수 설정)이 중요
- 변수의 포함 유무, 스케일링 방식 등