Support Vector Machine-2

김민재·2024년 6월 10일

ML

목록 보기

14/17

지난글에 간단히 SVM이 무엇인지, 우리가 문제를 어떻게 formulation해야 하는지를 살펴보았다.

기존의 constrained optimization문제를 unconstrained optimization으로 풀수있게 해주는 놀라운 발견을 예시로 잠시 살펴보겠다.

쉽게 생각하기 위해 1D 그래프를 보자.
$f(x)$ 의 minimum을 찾으려 한다. 그럴때 왼쪽의 경우에는 unconstrained optimization 문제이고, 내 interval $(-\infin,+\infin)$ 안에 있으므로 Interior optima라고 한다.

그런데, 어느순간 우리가 $x$ 가 $a$ 보다 절대 작아지지 않는다는 조건을 얻었다고 하자.
그렇다면 우리는 $x < a$ 는 관심없는 영역이기때문에, Infeasible domain이라 하고, $x>a$ 의 영역을 feasible domain이라 한다.
그럼 우린 이제 feasible domain만 생각하면 되기때문에 언제나 $f_{\min}$ 은 $f(a)$ 가 된다.
$\to$ 즉, constrained optimization 문제는 내 optimum이 bound에 존재하기 때문에 이를 Boundary optima라고 부른다.

$\Rightarrow$ Unconstrained 문제는 interior optima를 가지고, constrained 문제는 boundary optima를 가진다.

그렇다면 이번글에서, constrained optimization 문제를 unconstrained optimization 문제로 풀수있게 해주는 놀라운 발견인 KKT condition를 보자.

Augmented target function and Lagrange Multiplier

constrained가 없으면 최적해는 Convex Set의 내부에 존재하고, constrained가 존재하면 최적해는 constrained에 해당하는 hyperplane위에 존재하게 된다.

$x^*$ 가 주어진 구속조건 $h_1(x),h_2(x),\cdots,h_m(x)$ 를 만족하는 최적해일때, 다음이 성립한다.

\nabla f(x^*)+\lambda _1^*\nabla h_1(x^*)+\cdots+\lambda_m^*\nabla h_m(x^*)=\nabla f(x^*)+\sum_{i=1}^m \lambda_i^*\nabla h_i(x^*) = 0^T

그리고 $\lambda_i^*$ 를 Lagrange Multiplier 이라고 한다.

그래서 이게 뭔데요 하고 느낄수있지만, Lagrange Multiplier와 구속조건의 term들을 target function에 포함시키게 된다면 , Constrained optimization을 Unconstrained optimization으로 바꿔 풀수있다.

Augmented target function

l(x,\lambda) := f(x) + \sum_{i=1}^m\lambda_ih_i(x) \qquad\text{where }\;l : \mathbb{R}^n \times\mathbb{R}^m \to\mathbb{R}

위 식의 $l$ 이 바로 augmented 목적함수이다.

그렇다면 원래의 $x$ 에 대한 함수에서 우리가 Lagrange Multiplier을 추가해 $x,\lambda$ 에 대한 식으로 변하고, 그렇다면 최적해는 $x^*,\lambda^*$ 가 된다.

$x^* :$ a local constrained minimum of original $f$ $\to$ Primal variable
$\lambda^*:$ the corresponding vector of Lagrange Multipliers $\to$ Dual variable

그렇다면 우리는 최적해를 구하기 위해 gradient를 구해야 할것이고, gradient를 구하면,

\nabla l(x^*,\lambda^*) = \binom{\frac{\partial}{\partial x}l(x^*,\lambda^*)}{\frac{\partial}{\partial \lambda}l(x^*,\lambda^*)} = \binom{\nabla f(x^*)+\sum_{i=1}^m \lambda_i^*\nabla h_i(x^*)}{h(x^*)} = 0^T

이 된다. 이러한 식을 Dual과 Primal에 대한 문제를 푼다하여 Primal Dual Problem이라 한다.

그리고 중요한것 한가지가 있는데, $l$ 을 만들때 구속조건은 항상 negative null form으로 써줘야 한다.

이해가 잘 안될수도있으니, 역시나 예제를 살펴보자

Example

\underset{x}{\min} \quad f(x_1,x_2) = (x_1-2)^2+(x_2-2)^2\\ \text{sub. to} \quad h_1(x_1,x_2)=x_1^2+x_2^2=1

이 문제를 풀려면, 위의 과정을 그대로 진행하면 된다.

Augmented target function 만들기
$l(x,\lambda) = (x_1-2)^2+(x_2-2)^2 + \lambda (x_1^2+x_2^2-1)$

목적함수를 찾았으니, 이제 gradient를 구하면된다.

gradient 찾기 $\binom{\frac{\partial}{\partial x}l(x,\lambda)}{\frac{\partial}{\partial \lambda}l(x,\lambda)} = \binom{\frac{\partial}{\partial x}\left ( (x_1-2)^2+(x_2-2)^2 + \lambda (x_1^2+x_2^2-1)\right )}{\frac{\partial}{\partial \lambda}((x_1-2)^2+(x_2-2)^2 + \lambda (x_1^2+x_2^2-1))}$ 즉, $\frac{\partial}{\partial x_1}, \frac{\partial}{\partial x_2}, \frac{\partial}{\partial \lambda}$ 이렇게 3개를 구하고 연립방정식을 풀면된다!