Regression (회귀)
Regression: 예측값이 실수 범위
- Linear Regression
- Lasso
- Ridge
Linear Regression
- 단순 선형 회귀
y^=ax+b
와 같이 일차 방정식으로 선형관계가 나타나는 경우
- 다중 선형 회귀
y^=w0x0+w1x1+⋯+wpxp+b
와 같이 이차 방정식 이상으로 구성 돼있는 경우
다중 회귀를 풀다보면 과하게 w와 b를 최적화하며 overfit한 경우가 있는데 이를 방지하기 위해 Lasso, Ridge를 사용
Lasso
MSE가 최소가 되게 하는 동시에, 가중치들의 절댓값의 합이 최소가 되게 함
(벡터 요소의 절댓값의 합 = L1-Norm)
Lasso는 L1-Norm 패널티를 갖는 선형회귀 방법
Ridge
Ridge는 Lasso와 거의 동일하고 L2-Norm을 사용한다 생각하면 된다.
Classification
- Naive Bayes
- Support Vector
- Decision Tree (+ Entropy)
Naive Bayes
P(A∣B)=P(B)P(A∩B)=P(B)P(B∣A)P(A))
조건확률 기반
데이터 특징이 모두 동등하고 독립적이라 가정
Support Vector
분류를 할 떄 최대 마진을 가지는 방향으로 분류 수행
Decision Tree
규칙에 따라 구분
분순도 (Entropy 함수)가 낮도록 진행
Entropy
정보량의 기댓값, 무질서한 정도
사건 x가 발생할 확률이 높을수록 정보량은 0
(흔하게 일어날수록 정보가 되지 않는다.)