[통계] 로지스틱 회귀

hyun·2022년 8월 30일
0

통계

목록 보기
33/37

📚 로지스틱 회귀

  • 다중선형회귀와 비슷하지만, 결과가 이진형 변수이다.

로지스틱 반응 함수와 로짓

  • 로짓(logit) : ±\pm\infin 범위에서 어떤 클래스에 속할지 확률을 정하는 함수
  • 오즈(odds) : 실패(0)에 대한 성공(1)비율
  • 로그 오즈 (log odds) : 변환 모델(선형)의 응답변수, 이 값으로 확률을 구함

우선 결과변수를 이진값이 아닌, 클래스 1에 속할 확률 pp로 생각하자.
그러면 당연히도 pp를 선형으로 만들고 싶어진다.

p=β0+β1x1...p = \beta_0 + \beta_1x_1...

그러나 이렇게 되면 pp가 0~1의 범위를 넘어갈 수 있다.

따라서 로지스틱 반응 혹은 역로짓 함수를 이용해 pp를 모델링한다.

p=11+eβ0+β1x1...p = \frac{1}{1+e^{\beta_0+\beta_1x_1...}}

이를 통해 pp가 0~1사이 범위에 있게 만들 수 있다.


분모의 지수 부분을 구하려면 오즈비(odds ratio)를 이용한다.
상술했듯 오즈는 실패에 대한 성공 비율이므로, 성공/실패 확률이 된다.

odds(Y=1)=p1podds(Y=1)=\frac{p}{1-p}

식을 정리하면

p=odds1+oddsp=\frac{odds}{1+odds}

가 되고, 이를 로지스틱 반응 함수에 적용하면

odds(Y=1)=e0βo+β1x1...odds(Y=1)=e_0^{\beta_o+\beta_1x_1...}

이 된다.
양변에 로그를 취하면

log(odds)=βo+β1x1...log(odds)=\beta_o+\beta_1x_1...

로 예측변수에 대한 선형함수를 얻을 수 있고, 확률도 0~1 내이다!


일반화선형모형 (Generalized Linear Model, GLM)

다음 두 가지 요소로 특징지어진다.

  • 확률분포 또는 분포군 (로지스틱 회귀의 경우 이항분포)
  • 응답->예측변수에 매핑하는 연결 (혹은 변형) 함수(로지스틱 회귀의 경우 로짓)

오즈비 (odds ratio)

로지스틱 회귀의 선형식의 계수는 오즈비의 로그값이다.
따라서 오즈비를 사용해서 계수와 오즈비를 해석할 수 있다.

예를 들어 대출의 연체율을 예측하는데 [작은 사업에 대한 대출]의 로지스틱 회귀계수가 1.2가 나왔다고 하자. 신용카드 빚을 갚기 위한 회귀계수는 1이다.

이 경우, 계수가 로그값이므로 사실상 값은 exp(1.2)1\frac{exp(1.2)}{1} ~ 3.4배 오즈비가 증가한다는 것이다.

 🚨 내가 제대로 이해한 게 맞다면, 선형식을 만들기 위해서는 오즈를 이용해야 하고,
 단위가 오즈가 되기에 오즈비를 통해 해석하지 않으면 위험도를 과소해석할 수 있다.
 비율관계로 정확하게 "무엇이 무언가보다 몇배 더 위험하다" 를 논하려면 오즈비를
 사용하는 게 맞고, 로지스틱 회귀도 오즈비로 이루어지므로 근본에 더 가깝다.

그리고 ! 이 값을 로지스틱 반응함수에 집어넣으면 확률로 나오게 된다.

선형회귀와 로지스틱 회귀의 차이

모델 피팅

  • 선형회귀에서는 최소제곱오차를 사용하지만 로지스틱 회귀는 그럴 수 없다.
    답이 수치가 아니기 때문.
  • 따라서 최대우도추정(MLE)라는 놈을 써줘야 하는데, 예상 로그 오즈비가 관찰된 결과를 가장 잘 설명한 모델을 찾는다.

0개의 댓글