SVM(Support Vector Machine) 정리

juyeon·2022년 8월 24일
0

데이터 다루기

목록 보기
21/35
post-custom-banner

SVC: 분류

정리

원리, 개념

  • 마진을 가장 넓게하는 결정겅계를 찾자.

전제조건

  • NaN 조치, 가변수화, 스케일링(거리를 재기 때문에)

성능

  • C가 클수록, gamma가 클수록 모델이 복잡하다.

원리

  • 어떻게 하면 두 class 사이에 가장 넓은(즉, 마진이 가장 큰) 도로를 낼 것인가?

결정경계(hyper plane)

  • 두 class를 구분하는 경계선

서포트 벡터

  • 두 class 사이에 위치한 도로에 있는 데이터값

마진

  • 서포트벡터와 결정경계 사이의 거리.

마진의 크기와 오류의 trade off

  • 마진을 크게 하면서 동시에 오류를 줄이고 싶다.

과대적합에 주의하자

  • 마진이 좁으면, 완벽한 분류. 즉 과대적합 가능성
  • 마진이 넓으면, 오류 허용 가능성이 커짐.
  • 즉 무조건 완벽한 모델이 마냥 좋은 것은 아니다.

커널 트릭(Kernel Trick)

: 차원을 더 추가하지 않고도 추가한 효과를 냄.

  • poly: 다차항
  • rbf: 가우시안 커널
    • 비선형 결정경계 모델이 생성됨.
  • sigmoid

rbf의 하이퍼파라이터

C(cost)

  • C 값이 커지면
    • 오류를 허용하려는게 낮아짐. 즉 오차 허용이 낮아짐.
    • 마진 폭이 줄어듬. 모델이 복잡해짐.
    • 과대적합 가능성.
  • C 값이 작아지면
    • 오류에 허용적임. 즉 오류가 커짐.
    • 마진 폭이 넓어짐. 모델이 단순해짐.
    • 과소적합 가능성.

gamma

: 모델의 경계가 얼마나 복잡한가?

  • gamma가 커지면
    • 모델이 울퉁불퉁해짐. 복잡해짐
    • 과대적합 가능성.
  • gamma가 작아지면
    • 모델이 두루뭉술 해짐. 단순해짐.
    • 과소적합 가능성.

SVR: 회귀

profile
내 인생의 주연
post-custom-banner

0개의 댓글