Logistic Regression

MIN JI·2022년 11월 17일
0

Machine Learning

목록 보기
3/5

Machine Learning은 양적인 결과(quantitative outcome)나 qualitative class를 예측하는 것을 포함한다.
Regression problem : 연속 변수의 입력을 기반으로 numeric outcome을 예측.
(ex. 선형 회귀(linear regression)의 경우)
Classification problem : qualitative outcome(Class) 예측.
(ex. 사용자가 구매할 제품을 예측하거나 타겟 사용자가 온라인 광고를 클릭할 것인지 예측(참/거짓))


선형 회귀와 달리 연속 변수와 불연속 변수를 모두 입력으로 받아들이고 출력은 정성적(qualitative)이다. Yes/No나 Customer/Non-customer과 같은 불연속 클래스를 예측한다.

logistic regression algorithm은 변수 간의 관계를 분석하고 수치 결과를 0과 1.0 사이의 확률 표현으로 변환하는 sigmoid 함수를 사용하여 개별 결과에 확률을 할당한다.
값 0은 발생할 가능성이 없음을 나타내고 1은 발생할 가능성이 있음을 나타낸다.

Sigmoid Function


Binary prediction의 경우 컷오프 지점이 0.5인 두 개의 개별 클래스를 할당할 수 있다.
데이터 포인트를 분류하는 데 시그모이드 함수가 사용된다.
Sigmoid 함수를 사용하여 데이터 포인트를 클래스에 할당한 후 hyperplane을 decision boundary로 사용하여 두 클래스를 최대한 분할한다.

단, 변동성이 높아(신뢰할 수 있는 채우기 값을 찾을 수 없음), 변수를 유지하고 값이 누락된 행을 제거하여 진행한다.
X_test 데이터에 대한 예측 기능을 사용하여 Scikit-learn의 Confusion matrix 및 Classification report를 사용하여 예측 결과를 y_test 세트의 실제 결과와 비교.

세로 : Actual values / 가로 : Predicted Values

긍정적인 바이너리 결과(1)에 따르면 새 캠페인은 입력 변수와 모델의 규칙을 기반으로 목표 funding에 도달할 것으로 예측된다.
부정적인 바이너리 결과 (0)은 캠페인을 실패한 것으로 분류한다.

0개의 댓글