로지스틱 회귀

즐겁고치열하게·2022년 8월 24일
0

머신 러닝

목록 보기
5/12

로지스틱 회귀(Logistic Regression)

선형 회귀를 범주형 데이터 예측에 사용 했을 때 발생하는 문제(Y의 값이 무한히 올라가거나 내려가는 경우)를 해결하기 위해 사용하는 모델

선형 회귀식을 분류 모델에 사용 했을 때, 발생하는 문제

  • 원하는건 [0, 1] 의 범주형 데이터 이지만 [-∞, ∞]의 범위를 가진 숫자형 데이터로 나오게됨
    이미지

1. Odds Ratio (승산)

사건이 일어날 확률 대 사건이 일어나지 않을 확률의 비

P+(x):일어날확률P_{+}(x) : 일어날 확률
P+(x)1P+(x)\Large{P_{+}(x)} \over { 1 - {P_{+}(x)} }
  • 승산으로 Y의 범위를 [-∞, ∞] 에서 [0, ∞] 까지 줄였지만 아직 범주형 데이터라고 할수 없다.
  • X의 범위 또한 [0, ∞] 까지 제한되는 단점이 있다.

2. Log-odds (로그 승산)

f(x)=log(P+(x)1P+(x))\Large f(x) = \log\Huge(\large{{P_{+}(x)} \over { 1 - {P_{+}(x)} } }\Huge)

Log-odds

  • 승산에 로그를 취하면 Y의 범위는 [0, 1]까지, X의 범위는 [-∞, ∞]까지 확장된다.
  • Y=0.5를 기준으로 X의 값이 양수와 음수를 가지게 된다.
f(x)=ω0+ω1χ1+ω2χ2+...\Large f(x) = \omega_0 + \omega_1\chi_1 + \omega_2\chi_2 + ...
P+(x)=11+ef(x)\Large {P_{+}(x)}= { 1 \over { 1 + e^{-f(x)} } }

로지스틱 회귀의 수학적 설명
승산과 로그 승산

정리

1. 알고리즘의 원리

  • 선형 판별식을 찾고 로그 승산을 통해 Y의 범위를 [0, 1]로 변환

2. 전처리 과정

  • NaN 처리
  • 가변수화
  • 변수 간 독립(다중 공선성)

    다중 공선성

    변수간의 상관도가 높아 데이터 분석 시 계수 추정이 잘 되지 않거나 불안정해지는 경우
    분산 팽창 지수(VIF, Variance Inflation Factor)로 확인한다.

성능

  • hyper parameter(사용자가 직접 설정해주는 변수 설정)이 중요
  • 변수의 포함 유무, 스케일링 방식 등
profile
기술을 공부하는 기술자

0개의 댓글