로지스틱 회귀분석

까만호랭·2023년 11월 15일

📌 로지스틱 회귀분석 정의

로지스틱 회귀분석은 연속형 독립변수와 범주형(0,1) 종속변수 간의 관계를 모형화하여 종속변수를 분석하거나 분류하는 통계적 방법이다.
(이때, 종속변수를 성공or실패와 같이 둘 중 하나로 예측할때 사용)

📌 로지스틱 회귀분석 사용방법

로지스틱 회귀분석에서는 시그모이드 함수를 사용하여 확률을 모델링합니다. 이를 위해 오즈비(승산비)를 계산하고 로짓 변환을 통해 확률을 추정하며, 최종적으로 0~1사이의 확률값이 나오도록 해야한다.

📌 분석 단계

  1. 오즈비 계산과 로짓 변환
  2. 시그모이드 함수 사용
  3. 최대우도법을 통한 모델 훈련
  4. 이항분류

💡 오즈비에 로그를 씌워 로직변환을 하고 시그모이드 함수를 만들어 가장 좋은 곡선을 만들기 위해 최대우도법을 사용하여
[0,1]의 범위로 나눌 수 있게 이항분류를 한다.


로지스틱 회귀분석은 분류하기 때문에 `R-squared` 같은 설명력이 아닌 정확도를 계산해야 한다는 점에서 선형회귀분석과 다르다.

📌 오즈

Odds : 성공확률이 실패확률에 비해 몇배 더 높은가를 나타낸다.
Odds Ratio(오즈비) : 확률과 관련된 의미로 P가 주어졌을 때, 사건이 발생할 확률이 발생하지 않을 확률에 비해 몇배 더 높은가의 의미

p:성공할 확률, 1-p : 실패할 확률

커피와 우유를 1:3 비율로 만든다면(커피오즈1, 우유오즈3)
커피를 전체 카페라떼의 25%에 맞춰서 넣기
우유는 전체 카페라떼의 75%에 맞춰서 넣기
75%의 오즈 : 0.75/(1-0.75)=3
성공확률 : 0.75
실패확률 : 0.25
성공오즈 : 3 => 성공확률이 실패확률의 3배라고 표현한다.
오즈비 : 커피오즈/우유오즈 = (1/3)/3=1/9

  • 두 변수가 독립이면 커피의 오즈비는 1이된다.

우유를 1오즈, 커피를 1/3로 만든다면 25%가 된다.
0.25/(1-0.25)= 약 0.34

로짓변환 : log(오즈비) = log(1/9) = 약 -2.197
로짓변환을 하게 되면 [~∞,∞]의 범위로 나오게 된다.

오즈비에 로그를 씌우는 로짓변환을 실행하면 정규분포형태의 값이 나오므로 크기를 판단이 가능하다.
즉, 오즈비는 오즈와 정규분포를 연결하는 하는 역할을 한다.

📌 시그모이드 함수


-(wx+b) 대신 -x로 기입하기도 한다.
이떄 -(wx+b)에 -∞,∞를 대입하여 계산한다면 [0,1]의 값이 나온다.

  • [0~0.5)사이로 값이 나온다면 실패할 확률
  • [0.5,1]로 나온다면 성공할 확률

시그모이드 함수를 실행하면 독립변수의 개수만큼 s자를 그린 곡선이 여러개가 나오는데 그때, 최적의 s곡선을 가져와야 한다.

📌 우도

  • 우도 : 관측된 사건이 고정된 상태에서, 확률분포가 변화될 때(확류분포를 가정할때) 확률을 표현하는 단어
  • 확률 : 확률분포가 고정된 상태에서 관측되는 사건이 변화될 때 확률을 표현하는 단어

최대우도법 : 알고 싶은 데이터(모수)가 있다고 할 때, 많은 관측치들을 통해 가장 그럴 듯한 값(가능성이 높은 값)을 추정하는 것

📌 다항분류에 사용되는 softmax 함수

다항분류는 soft max함수 사용

softmax함수는 이항, 다항 다 사용이 가능하지만 시그모이드는 이항만 가능하다.

profile
남들과 함께 발자국을 남기는 까만호랭

0개의 댓글