2021.10.22 TIL

서승원·2021년 10월 22일
0

TIL

목록 보기
5/68

2021.10.22 TIL

8. Regression, Logistic Regression,and Decesion Tree

8-1. Regression
선형회귀분석
4가지 가정 : 선형성 정규성 등분산성 독립성
모델 평가 : 결정계수 R2와 F검정통계량에 대한 확률, 잔차 분석 그래프, 최소제곱법 등의 방법
MSE, RMSE, MAE, MAPE 의 회귀 모델

8-2. Logistic Regression
Classification
지도 학습의 일종으로 Feature값과 label 간의 관계를 학습하여 새로 관측된 class를 예측하는 문제

Logistic Regression
이진 분류의 class만 사용 가능한 프로세스, 독립변수들의 선형 결합과 종속 변수의 class간 확률적관계를 학습

출처 : https://ebbnflow.tistory.com/129
회귀식 형태의 모델을 사용해 각 독립 변수의 통계적 유의성, 종속변수에 미치는 영향력을 분석한다.

로지스틱 회귀 변환 과정
1) 승산비 (0~∞)
Odds = p/(1-p)
2) 로짓 함수 ( -∞ ~ +∞)
log(Odds)=log(p/(1-p)) 스케일을 맞추기 위해 log 로 변환
3) 역함수 ( 0 ~1 )
logistic(x)= e^x/(1+e^x)

임계값
기본 임계값은 0.5, 임계값을 낮추면, 민감도가 높아져 오분류가 높아지지만 Y=1인 경우를 최대한 분류하고, 임계값을 높이면 Precision이 높아져 알파 오류를 최소화한다.

8-3. Decision Tree
시각화를 통해 수치형,범주형 데이터를 가공이 필요없이 처리할 수 있다. 과적합이 쉽게 자료에 따라 불안정한 점이 있다.

불순도

  • Gini pmpurity

    출처 : https://data-science-hi.tistory.com/59
    0~0.5의 범위에서 0.5에 가까울 수록 순도가 낮음.
  • Entropy
    두 가지의 불순도로 각 Node 를 거친 후 불순도 비교를 통해 더 우수한 모델을 만들 수 있다.
profile
2년차 백엔드 개발자, crimy

0개의 댓글