Chapter 5 서포트벡터머신 -1

임동윤·2022년 10월 12일
0
post-thumbnail

선형 SVM 분류

  • 서포트 벡터 머신은 선형이나 비선형 분류, 이상치 탐색에도 사용할 수 있는 매우 강력한 다목적 머신러닝 모델입니다.

라지 마진 분류

  • 오른쪽 그래프의 실선이 SVM 분류기의 결정 경계로, 이 직선은 두 개의 클래스를 나누고 있을 뿐만 아니라 제일 가까운 훈련 샘플로부터 가장 멀리 떨어져 있다.
  • SVM 분류기를 클래스 사이에 가장 폭이 넓은 도로를 찾는 것으로 생각할 수 있으며, 그래서 라지 마진 분류라고 합니다.

특성 스케일에 따른 민감성

  • SVM은 특성의 스케일에 민감합니다.
  • 왼쪽 그래츠에서는 수직축의 스케일이 수평축의 스케일보다 훨씬 커서 SVM 분류기가 거의 수평에 가깝게 됩니다.
  • 여기서 skitlearnStandardScaler등을 이용하여 특성의 스케일을 조정하면 오른쪽의 그래프와 같이 결정경계가 훨씬 좋아집니다.

이상치에 민감한 하드마진

  • 모든 샘플이 도로 바깥쪽으로 올바르게 분류되어 있다면 이를 하드 마진 분류(hard margin classification)이라고 합니다.
  • 하드마진 분류는 데이터가 선형적으로 구분되어 있어야 하며, 이상치에 민감하다는 한계를 가지고 있습니다.

소프트 마진 분류

  • 이런 문제를 피하기위한 유연한 모델이 소프트 마진 분류(soft margin classification)입니다.
  • 사이킷런의 SVM 모델의 하이퍼 파라미터중 하나인 C를 낮게 설정하면 왼쪽 그림과 같은 모델을 만들며, 높게 설정하면 오른쪽과 같은 모델을 얻습니다.

profile
AI Tensorflow Python

0개의 댓글