y = w1x1 + w2x2 + w3x3 + ... + wpxp + b > 0
특성들의 가중치 합이 0보다 크면 class를 +1(양성클래스)
로 0보다 작다면 클래스를 -1(음성클래스)
로 분류한다.
동시에 분류용 선형모델은 결정 경계가 입력의 선형함수 이다.
분류용 선형 모델의 종류와 예시는 아래를 참고하자.
- Logistic Regression (Regression 단어가 붙지만 분류용 모델)
- Linear Support Vector Machine
Sigmoid Function(Logistic Function)
을 이용해 0과 1로 변환한다.Support Vector Machine (SVM)은 가운데 사이값 즉 1과 0에서 가장 가까운 것들의 사이를 가로 지르는 분기점을 기준으로 그래프가 그려지게 된다.
회귀 선형 모델 : alpha
(값이 클수록 규제가 강해진다.)
선형 분류 모델 : C
(값이 클수록 규제가 약해진다.)
기본적으로 L2규제를 사용, 하지만 중요한 특성이 몇 개 없다면 L1규제를 사용해도 무방
(주요 특성을 알고 싶을 때 L1 규제를 사용하기도 한다.)
매우 큰 데이터 세트와 희소(sparse)한 데이터 세트에서도 잘 동작한다.
이외에도 선형모델은 학습 속도가 빠르고 예측도 빠르며, 특성이 많을수록 더욱 잘 동작하고, 저차원(특성이 적은) 데이터에서는 다른모델이 더 좋은 경우가 많다.
곧 Kaggle 경진대회가 있는 시점에서 어떤 모델을 사용해야 할지 고민이 되느 시점이다.
가장 적합한 모델을 선별해서 잘 적용 해야 점수가 잘 나오게 될 텐데 아직 갈피를 못잡고 있어서 걱정이 많이있다.