[빅분기] 서포트 벡터 머신 Support Vector Machine; SVM

: ) YOUNG·2021년 11월 29일
2

빅분기

목록 보기
7/20
post-thumbnail

서포트 벡터 머신

서포트 벡터 머신 개념

벡터 공간에서 학습데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델

데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델이다.

최대 마진을 가지는 비확률적 선형 판별 분석에 기초한 분류기이다.


SVM 특징

SVM은 공간상에서 최적의 분리 초평면(Hyperplane)을 찾아서 분류 및 회귀를 수행한다.

비선형으로 분류되는 모형에는 사용할 수 있다.

변수 속성간의 의존성은 고려하지 않으면 모든 속성을 활용한다.

훈련 시간이 느리지만 정확성이 뛰어나 다른 방법보다 과대적합의 가능성이 낮다

서포트 벡터가 여러개 일 수 있다.

기계학습의 한 분야로 사물 인식, 패턴 인식, 손글씨 숫자 인식 등 다양한 분야에서 활용되고 있는 지도 학습 모델이다.

사용자가 설정해야 하는 매개변수가 많다

최적 커널을 자동으로 선택한다.

여백을 거의 사용하지 않는다.

결정 경계
(Decision Boundary)
- 데이터 분류의 기준이 되는 경계
초평면
(Hyperplane)
- n차원 공간의 (n-1)차원 평면
마진
(Margin)
- 결정 경계에서 서포트 벡터까지의 거리(여유공간)
- 최적의 결정 경계는 마진을 최대화
서포트 벡터
(Support Vector)
- 학습 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
슬랙 변수
(Slack Variables)
- 완벽한 분리가 불가능할 때 선형적으로 분류를 위해 허용된 오차를 위한 변수

SVM 종류

하드 마진 SVM
(Hard Margin SVM)
- 오 분류를 허용하지 않는 SVM
- 노이즈로 인하여 최적의 결정 경계를 잘못 구할 수도 잇고 못 찾을 경우도 발생할 수 있음
소프트 마진 SVM
(Soft Margin SVM)
- 오 분류를 허용하는 SVM
- 하드 마진 SVM은 적용하기 어려움, 따라서 어느 정도 오류를 허용하는 소프트 마진 SVM을 주로 이용

SVM 적용 기준

  • 선형으로 분리가 가능한지 불가능한지에 따라 적용하는 방식이 다르다

선형으로 분리 가능한 SVM

  • 최적의 결정 경계(또는 초경계)를 기준으로 1과 -1로 구분하여 분류 모형으로 사용

선형으로 분리 불가능한 SVM

  • 저차원 공간을 고차원 공간으로 매핑할 경우 발생하는 연산의 복잡성은 커널 트릭을 통하여 해결이 가능
  • 커널 트릭은 커널 함수(저차원에서 함수의 계산만으로 원하는 풀이가 가능한 함수)를 이용하여 고차원 공간으로 매핑할 경우에 증가하는 연산량의 문제를 해결하는 기법

SVM의 장단점 ★★★★★★(중요)

SVM의 장점
데이터가 적을 때 효과적

연산량 최소화

정확성이 뛰어남

비선형 모델 분류 가능

과대적합의 가능성이 낮고, 노이즈의 영향이 적음


SVM의 단점
데이터 전처리 과정이 중요

데이터 세트가 클 경우 많은 시간이 소요됨

속도가 느림

많은 테스트가 필요

SVM의 커널

  • 다항 커널
  • 선형 커널
  • 가우시안 RBF 커널
  • Sigmoid 커널

0개의 댓글