SVM(Support Vector Machine)

진수·2023년 10월 16일

Pytorch

목록 보기

2/4

왜 사용할까? : 주어진 데이터에 대한 분류
언제 사용하면 좋을까? : 서보트 벡서 머신은 커널만 적절히 선택한다면 정확도가 상당히 좋다. 때문에 정확도를 요구하는 분류문제를 다룰 떄 사용하면 좋다. 텍스트를 분류 할 때에도 많이 사용한다.

SVM은 분류를 위한 기준선을 정의하는 모델이다. 분류되지 않은 새로운 데이터가 나타나면 경계선을 기준으로 어느 경계에 속하는지를 분류할 수 있다.

경계선을 결정경계라고 하는데, 이 결정 경계가 클래스를 분류한다. SVM에는 마진(margin)이라는 것이 있는데, 이는 결정 경계와 서포트 벡터(Support Vector)사이의 거리를 의미한다. SV란 결정 경계와 가장 가까이 있는 데이터(들)을 의미한다. 이 데이터(들)이 경계를 결정하는 중요한 역할을 한다. 즉, 최적의 결정 경계는 margin이 최대가 되어야 한다.

margin의 종류에는 soft margin과 hard margin 두 가지가 있다.
soft margin은 margin안 (결정 경계를 넘을수도 있음)에 이상치가 있어도 되는 경우
hard margin은 절대로 없는 경우를 의미한다.

from sklearn import svm
from sklearn import metrics
from sklearn import datasets
from sklearn import model_selection

import tensorflow as tf
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'

iris = datasets.load_iris()
X_train, X_test, y_train, y_test = model_selection.train_test_split(
	iris.data, iris.target, test_size = 0.6, random_state = 42)

svm = svm.SVC(kernel='linear', C=1.0, gamma=0.5)
svm.fit(X_train, y_train)
predictions = svm.predict(X_test)
score = metrics.accuracy_score(y_test, predictions)
print('정확도 : {0:f}'.format(score))