Theory of Generalization

김민재·2024년 6월 4일
0

ML

목록 보기
10/17

저번에는 왜 우리가 Dichotomiy라는 개념을 도입했는지, 왜 Growth function을 사용하는지를 배웠다.

잠깐 복습을 해보자.
Growth function이란, N개의 sample이 주어졌을때, 거기서부터 내가 정의할수있는 최대 dichotomiy의 갯수이다.
그리고 break point를 통해 그 값을 bound되게 만들어주었다.


이번장에는 내 growth function mH(N){\color{Red} m}_\mathcal{H}(N) 이 poliynomial하다는 것과, mH(N){\color{Red} m}_\mathcal{H}(N)M{\color{Red} M}을 대체할수있다는 것을 증명하려 한다.

Bounding mH(N){\color{Red} m}_\mathcal{H}(N)

mH(N){\color{Red} m}_\mathcal{H}(N)이 polynomial하다는 것을 증명하기를 원한다.
우리는 이전까지

mH(N) a polynomial{\color{Red} m}_\mathcal{H}(N) \leq\cdots\leq\cdots\leq\text{ a polynomial}

우리는 지금껏 mH(N){\color{Red} m}_\mathcal{H}(N)이 뭐보다 작다를 계속 봐왔고, 마지막처럼 나타낼수있으면 된다.

이제 우리가 하나의 function을 정의하자

B(N,k)B(N,k)

이 함수는 N개의 point가 있고, break point가 k개 일때 maximum number of dichotomies를 return해주는 함수이다.

Recursive bound on B(N,k)B(N,k)

그냥 N개의 sample만 주어져있고, x1x_1부터 xNx_N까지 모든 가능한 조합을 전부 썼다고 생각해보자. 그리고 그 뒤에 임의로 섞어서 나온 배치가 위의 그림과 같다고 하자.
그리고 x1xN1x_1 \sim x_{N-1}까지를 값이라고 생각하고, xNx_N을 label이라고 생각해보겠다.

그뒤에, 이제 S2S_2S1S_1에 있던 값들을 label이 1인것과 -1인것으로 나누었다.

이경우에 break point의 개수는 B(N,k)=α+2βB(N,k) = \alpha + 2\beta 이다.

이경우에는 S2S^-_2는 중복된 값이라 제거하고 본다면, N1N-1까지의 sample만 살펴본다하면 break point의 갯수는

α+βB(N1,k)\alpha +\beta \leq B(N-1,k)

가 된다.

그다음, β\beta 하나에 대해서 보면

βB(N1,k1)\beta \leq B(N-1,k-1)

가 된다.

이제 위에것들을 모두 한번에 살펴보자.

B(N,k)=α+2βα+βB(N1,k)βB(N1,k1)\begin {aligned} B(N,k) = &\alpha +2\beta \\ & \alpha + \beta \leq B(N-1,k)\\ & \beta\leq B(N-1,k-1) \end{aligned}

가 되고, 그렇다면 최종적으로 다음처럼 생각할수있다.

B(N,k)B(N1,k)+B(N1,k1)\begin {aligned} B(N,k) \leq & \\ &B(N-1,k)+B(N-1,k-1) \end{aligned}

Numerical computation of B(N,k)B(N,k) bound

B(N,k)B(N,k)를 matrix로 표현하면,

이렇게 나타나는데, 위 식에서 볼수있듯이, k와 k-1을 더하면 그 다음것이 된다.

B(N,k)B(N1,k)+B(N1,k1)\begin {aligned} B(N,k) \leq B(N-1,k)+B(N-1,k-1) \end{aligned}

Analytic solution for B(N,k)B(N,k) bound

결국, 다음과 같은 Theorem이 존재하게 된다.

B(N,k)i=0k1(Ni)B(N,k) \leq \sum_{i=0}^{k-1}\binom{N}{i}

결국, boundary condition이 매우 쉬워지게 된다!


Now, It is polynomial!

For a given H\mathcal{H}, the break point kk is fixed

mH(N)i=0k1(Ni){\color{Red} m}_\mathcal{H}(N) \leq {\color{Blue}\sum_{i=0}^{k-1}\binom{N}{i}}

이제 다시 보았단 3가지 예제를 생각해보자

  • H\mathcal{H} is positive rays: (break point k=2k=2)
    mH(N)=N+1N+1{\color{Red} m}_\mathcal{H}(N) = N+1 \leq {\color{Blue} N+1}

  • H\mathcal{H} is positive intervals: (break point k=3k=3)
    mH(N)=N+112N2+12N+1{\color{Red} m}_\mathcal{H}(N) = N+1 \leq {\color{Blue} \frac{1}{2}N^2+\frac{1}{2}N+1}

  • H\mathcal{H} is 2D perceptrons: (break point k=4k=4)
    mH(N)=N+116N3+56N+1{\color{Red} m}_\mathcal{H}(N) = N+1 \leq {\color{Blue} \frac{1}{6}N^3 + \frac{5}{6}N+1}

mH(N){\color{Red} m}_\mathcal{H}(N) polynomial 하다는것을 모두 증명하였다.

이제 mH(N){\color{Red} m}_\mathcal{H}(N)M{\color{Red} M}을 대체할수있다는 것을 증명하겠다.


Proof that MH(N){\color{Red} M}_\mathcal{H}(N) can replace M{\color{Red} M}

우리가 원하는 식을 한번 봐보자.

P[Ein(g)Eout(g)>ϵ]2Me2ϵ2N\mathbb{P}\left [ \left | E_{\text{in}}(g) - E_{\text{out}}(g) \right | >\epsilon \right ]\leq 2{\color{Red} M}e^{-2\epsilon^2 N}

이 식 대신에,

P[Ein(g)Eout(g)>ϵ]2mH(N)e2ϵ2N\mathbb{P}\left [ \left | E_{\text{in}}(g) - E_{\text{out}}(g) \right | >\epsilon \right ]\leq 2{\color{Red} m}_\mathcal{H}(N)e^{-2\epsilon^2 N}

이걸 사용하고싶은 것이다.

이 그림에서 저 이상한 동그라미는 bad event라고 생각하면된다.
그러면 우리가 bad event를 overlap되게 만들면 좋으므로 (c)처럼 되게 만들고싶은데, 이러한 bound를 Vapnik-Chervonenkis bound라고 한다

따라서....

P[Ein(g)Eout(g)>ϵ]2mH(N)e2ϵ2N\mathbb{P}\left [ \left | E_{\text{in}}(g) - E_{\text{out}}(g) \right | >\epsilon \right ]\leq 2 m_\mathcal{H}(N)e^{-2\epsilon^2 N}

대신에

P[Ein(g)Eout(g)>ϵ]4mH(2N)e18ϵ2N\mathbb{P}\left [ \left | E_{\text{in}}(g) - E_{\text{out}}(g) \right | >\epsilon \right ]\leq {\color{Red} 4} m_\mathcal{H}({\color{Red} 2}N)e^{-{\color{Red} \frac{1}{8}}\epsilon^2 N}

을 사용하고 이를 VC Inequality라고 한다.

The most important theoretical result in machine learning!{\color{Red} \text{The most important theoretical result in machine learning!}}

다음에는 이 VC dimension에 대해 더 자세히 살펴보겠다.

0개의 댓글