로지스틱 회귀분석은 연속형 독립변수와 범주형(0,1) 종속변수 간의 관계를 모형화하여 종속변수를 분석하거나 분류하는 통계적 방법이다.
(이때, 종속변수를 성공or실패와 같이 둘 중 하나로 예측할때 사용)
로지스틱 회귀분석에서는 시그모이드 함수를 사용하여 확률을 모델링합니다. 이를 위해 오즈비(승산비)를 계산하고 로짓 변환을 통해 확률을 추정하며, 최종적으로 0~1사이의 확률값이 나오도록 해야한다.
- 오즈비 계산과 로짓 변환
- 시그모이드 함수 사용
- 최대우도법을 통한 모델 훈련
- 이항분류
💡 오즈비에 로그를 씌워 로직변환을 하고 시그모이드 함수를 만들어 가장 좋은 곡선을 만들기 위해 최대우도법을 사용하여
[0,1]의 범위로 나눌 수 있게 이항분류를 한다.
로지스틱 회귀분석은 분류하기 때문에 `R-squared` 같은 설명력이 아닌 정확도를 계산해야 한다는 점에서 선형회귀분석과 다르다.
Odds : 성공확률이 실패확률에 비해 몇배 더 높은가를 나타낸다.
Odds Ratio(오즈비) : 확률과 관련된 의미로 P가 주어졌을 때, 사건이 발생할 확률이 발생하지 않을 확률에 비해 몇배 더 높은가의 의미
p:성공할 확률, 1-p : 실패할 확률

커피와 우유를 1:3 비율로 만든다면(커피오즈1, 우유오즈3)
커피를 전체 카페라떼의 25%에 맞춰서 넣기
우유는 전체 카페라떼의 75%에 맞춰서 넣기
75%의 오즈 : 0.75/(1-0.75)=3
성공확률 : 0.75
실패확률 : 0.25
성공오즈 : 3 => 성공확률이 실패확률의 3배라고 표현한다.
오즈비 : 커피오즈/우유오즈 = (1/3)/3=1/9
우유를 1오즈, 커피를 1/3로 만든다면 25%가 된다.
0.25/(1-0.25)= 약 0.34
로짓변환 : log(오즈비) = log(1/9) = 약 -2.197
로짓변환을 하게 되면 [~∞,∞]의 범위로 나오게 된다.
오즈비에 로그를 씌우는 로짓변환을 실행하면 정규분포형태의 값이 나오므로 크기를 판단이 가능하다.
즉, 오즈비는 오즈와 정규분포를 연결하는 하는 역할을 한다.

-(wx+b) 대신 -x로 기입하기도 한다.
이떄 -(wx+b)에 -∞,∞를 대입하여 계산한다면 [0,1]의 값이 나온다.
시그모이드 함수를 실행하면 독립변수의 개수만큼 s자를 그린 곡선이 여러개가 나오는데 그때, 최적의 s곡선을 가져와야 한다.

우도 : 관측된 사건이 고정된 상태에서, 확률분포가 변화될 때(확류분포를 가정할때) 확률을 표현하는 단어확률 : 확률분포가 고정된 상태에서 관측되는 사건이 변화될 때 확률을 표현하는 단어최대우도법 : 알고 싶은 데이터(모수)가 있다고 할 때, 많은 관측치들을 통해 가장 그럴 듯한 값(가능성이 높은 값)을 추정하는 것
다항분류는 soft max함수 사용

softmax함수는 이항, 다항 다 사용이 가능하지만 시그모이드는 이항만 가능하다.