SVC: 분류
정리
원리, 개념
전제조건
- NaN 조치, 가변수화, 스케일링(거리를 재기 때문에)
성능
- C가 클수록, gamma가 클수록 모델이 복잡하다.
원리
- 어떻게 하면 두 class 사이에 가장 넓은(즉, 마진이 가장 큰) 도로를 낼 것인가?
결정경계(hyper plane)
서포트 벡터
- 두 class 사이에 위치한 도로에 있는 데이터값
마진
마진의 크기와 오류의 trade off
- 마진을 크게 하면서 동시에 오류를 줄이고 싶다.
과대적합에 주의하자
- 마진이 좁으면, 완벽한 분류. 즉 과대적합 가능성
- 마진이 넓으면, 오류 허용 가능성이 커짐.
- 즉 무조건 완벽한 모델이 마냥 좋은 것은 아니다.
커널 트릭(Kernel Trick)
: 차원을 더 추가하지 않고도 추가한 효과를 냄.
- poly: 다차항
- rbf: 가우시안 커널
- sigmoid
rbf의 하이퍼파라이터
C(cost)
- C 값이 커지면
- 오류를 허용하려는게 낮아짐. 즉 오차 허용이 낮아짐.
- 마진 폭이 줄어듬. 모델이 복잡해짐.
- 과대적합 가능성.
- C 값이 작아지면
- 오류에 허용적임. 즉 오류가 커짐.
- 마진 폭이 넓어짐. 모델이 단순해짐.
- 과소적합 가능성.
gamma
: 모델의 경계가 얼마나 복잡한가?
- gamma가 커지면
- 모델이 울퉁불퉁해짐. 복잡해짐
- 과대적합 가능성.
- gamma가 작아지면
- 모델이 두루뭉술 해짐. 단순해짐.
- 과소적합 가능성.
SVR: 회귀