📚 로지스틱 회귀
- 다중선형회귀와 비슷하지만, 결과가 이진형 변수이다.
로지스틱 반응 함수와 로짓
- 로짓(logit) : ±∞ 범위에서 어떤 클래스에 속할지 확률을 정하는 함수
- 오즈(odds) : 실패(0)에 대한 성공(1)비율
- 로그 오즈 (log odds) : 변환 모델(선형)의 응답변수, 이 값으로 확률을 구함
우선 결과변수를 이진값이 아닌, 클래스 1에 속할 확률 p로 생각하자.
그러면 당연히도 p를 선형으로 만들고 싶어진다.
p=β0+β1x1...
그러나 이렇게 되면 p가 0~1의 범위를 넘어갈 수 있다.
따라서 로지스틱 반응 혹은 역로짓 함수를 이용해 p를 모델링한다.
p=1+eβ0+β1x1...1
이를 통해 p가 0~1사이 범위에 있게 만들 수 있다.
분모의 지수 부분을 구하려면 오즈비(odds ratio)를 이용한다.
상술했듯 오즈는 실패에 대한 성공 비율이므로, 성공/실패 확률이 된다.
odds(Y=1)=1−pp
식을 정리하면
p=1+oddsodds
가 되고, 이를 로지스틱 반응 함수에 적용하면
odds(Y=1)=e0βo+β1x1...
이 된다.
양변에 로그를 취하면
log(odds)=βo+β1x1...
로 예측변수에 대한 선형함수를 얻을 수 있고, 확률도 0~1 내이다!
일반화선형모형 (Generalized Linear Model, GLM)
다음 두 가지 요소로 특징지어진다.
- 확률분포 또는 분포군 (로지스틱 회귀의 경우 이항분포)
- 응답->예측변수에 매핑하는 연결 (혹은 변형) 함수(로지스틱 회귀의 경우 로짓)
오즈비 (odds ratio)
로지스틱 회귀의 선형식의 계수는 오즈비의 로그값이다.
따라서 오즈비를 사용해서 계수와 오즈비를 해석할 수 있다.
예를 들어 대출의 연체율을 예측하는데 [작은 사업에 대한 대출]의 로지스틱 회귀계수가 1.2가 나왔다고 하자. 신용카드 빚을 갚기 위한 회귀계수는 1이다.
이 경우, 계수가 로그값이므로 사실상 값은 1exp(1.2) ~ 3.4배 오즈비가 증가한다는 것이다.
🚨 내가 제대로 이해한 게 맞다면, 선형식을 만들기 위해서는 오즈를 이용해야 하고,
단위가 오즈가 되기에 오즈비를 통해 해석하지 않으면 위험도를 과소해석할 수 있다.
비율관계로 정확하게 "무엇이 무언가보다 몇배 더 위험하다" 를 논하려면 오즈비를
사용하는 게 맞고, 로지스틱 회귀도 오즈비로 이루어지므로 근본에 더 가깝다.
그리고 ! 이 값을 로지스틱 반응함수에 집어넣으면 확률로 나오게 된다.
선형회귀와 로지스틱 회귀의 차이
모델 피팅
- 선형회귀에서는 최소제곱오차를 사용하지만 로지스틱 회귀는 그럴 수 없다.
답이 수치가 아니기 때문.
- 따라서 최대우도추정(MLE)라는 놈을 써줘야 하는데, 예상 로그 오즈비가 관찰된 결과를 가장 잘 설명한 모델을 찾는다.