Classification - Logistic Regression

이윤택·2022년 8월 1일
0

Data Science

목록 보기
1/11

Logistic Regression is a statistical model that models the probability of one event taking place by having the log-odds (the logarithm of the odds) for the event be a linear combination of one or more independent variables ("predictors")

쉽게 말해, 주어진 데이터를 통해 사건의 발생 확률을 예측하는 통계 모델이다.

Odds vs Probability

위의 클을 보면, having the log-odds 라고 되어있는 것을 볼 수 있다.

  • Probability(확률) = 성공횟수 / 전체 시도 횟수
  • Odds(승산) = 성공횟수 / 실패횟수

성공횟수를 전체 시도 횟수로 나누냐, 실패횟수로 나누냐에 나뉘므로, 결과값의 범위 자체가 다르다.
Odds는 0 ~ 무한 의 범위를 가지며, 1 이상일 경우 성공확률이 실패확률보다 높다.
Probability는 0 ~ 1 의 범위를 가지며, 1에 가까울수록 높은 성공확률을 보인다

특징

  • Logistic Regression은 Linear Regression을 분류 모델로써 확장한 모델이다
  • Linear Regression은 특정 수치값(numeric value, continuous)을 예측하는 데에는 좋지만, 특정 카테고리를 예측하는 데에는 적합하지 않다
  • Linear Regression 결과에 적당한 함수를 적용하여 output score를 0과 1 사이의 값으로 변환하는 것으로 카테고리가 나올 확률을 예측하는 문제로 변환한다
  • 이 확률은 예측값이 1이 될 확률이며, 0.5를 넘기면 1로, 그렇지 않다면 0으로 예측하는 분류 모델로 사용 가능하다
  • 사용 예시 : 심장마비에 걸릴 확률 예측, 생산품의 실패 확률 예측, 고객이 상품을 구매할 확률 예측 , ...
profile
데이터 엔지니어로 전향중인 백엔드 개발자입니다

0개의 댓글