표현자 정리

WooSeongkyun·2023년 3월 16일
0

기타수학

목록 보기
4/8
  • 힐버트 공간 Hilbert space
    - 내적이 정의된 완비(모든 코시수열이 수렴한다)공간을 힐버트 공간이라고 부른다
    - 대부분의 AI 이론이 전개되는 실수공간,복소수공간 Rn\mathbb{R} ^{n} , Cn\mathbb{C} ^{n} 이 힐버트 공간이다
    - AI에선 두 대상간의 유사도 similarity를 측정하고자 하는데, 이에 가장 자주 활용되는 것이 바로 내적 inner product을 활용한 코사인 유사도이다. ( CS(A,B)=A,BABCS(\boldsymbol{A},\boldsymbol{B})=\boldsymbol{\displaystyle\frac{\langle {\boldsymbol{A}},\boldsymbol{B} \rangle}{\| \boldsymbol{A} \|\| \boldsymbol{B} \|}} )
    - 코시 수열 cachy sequence
    - 수열이 진행될수록 두 원소 값이 점점 가까워 지는 수열
    - 임의의 ϵ>0\epsilon>0 에 대해, 적당한 자연수 NN이 존재하여 m,n>Nm,n >N 일때 xmxn<ϵ\| x _{m}- x _{n} \|<\epsilon 인 수열이다
    - 코시수열의 특징
    - 수렴하는 수열은 코시 수열이다
    - Rn\mathbb{R} ^{n} 에서의 코시 수열은 유계이다
    - Rn\mathbb{R} ^{n} 에서의 코시 수열은 수렴한다

  • LpL ^{p} 공간
    - LpL ^{p} 공간이란 Normed Vector space(Norm이 정의된 vector space)의 한종류이다. 이때 p=2p=2 인경우 Hilbert Space가 된다
    - 임의의 집합 X\mathcal{X} 에서 실수로 가는 함수 f:XRf:\mathcal{X}\to \mathbb{R} 를 생각하자. 그리고 이중 다음 조건을 만족하는 함수 집합을 생각하자
    - fp=(Xf(x)pdx)1p<\| f \|_{p}=(\displaystyle\int_{\mathcal{X}}^{}{|f(x)| ^{p}}dx) ^{\displaystyle\frac{1}{p}} < \infty
    - 위의 조건을 만족하고, 덧셈 (f+g)(x)=f(x)+g(x)(f+g)(x)=f(x)+g(x) , 스칼라곱(αf)(x)=αf(x)(\alpha f)(x)=\alpha f(x) 이 정의된 함수들의 집합은 Vector space이다

  • 커널 kernel (Ref) (함수해석학 내에서의 커널을 의미함)
    - 조건
    - 입력 공간 input space XX \neq \emptyset 에서 힐베르트공간 (H,<,>)(H,<\cdot ,\cdot >) 로의 사상 ϕ:XH\phi:X \to H 를 피쳐 사상 feature map(혹은 mapping function)이라 부르자. HH를 피처 공간이라 부르기도 한다
    - (H,<,>)(H,<\cdot ,\cdot >) 의 내적 ,:H×HC\langle {\cdot },{\cdot } \rangle: H \times H \to \mathbb{C} 에 대하여 다음과 같이 정의된 함수 k:X×XCk : X \times X \to \mathbb{C} 를 커널 Kernel이라고 정의한다
    - 정의
    - k(x1,x2)ϕ(x1),ϕ(x2)k(x _{1},x _{2}) \equiv \langle {\phi(x _{1})},{\phi(x _{2})} \rangle
    - 커널의 역할
    1. 입력 공간 XX 가 어떠한 형태인지를 사전에 정의하지 않은 이유는, XX 가 사진이나 문서데이터등의 다양한 형태가 올 수 있기 때문이다. 이 데이터들의 유사도를 측정하기 위해 우선 이 데이터들을 힐버트 공간의 벡터로 대응시키고(ϕ\phi), 대응된 벡터들끼리 내적시키는 (,\langle {\cdot },{\cdot } \rangle) 함수를 커널kernel이라 부르는 것이다
    2. 또한 입력 공간 XX 의 데이터 분포를 경계짓는 초평면이 선형적으로 존재하지 않는경우 (non-linear boundary), 데이터의 분류가 잘되는 고차원 공간 HH 으로 옮겨 연산하기 위해 활용되기도 한다

    	- 양정부호 커널 positive definite kernel
    		- $m$ 개의 데이터 $\{ x _{1}, x _{2},\cdots,x _{m} \} \subset X$  에 대하여, 다음과 같은 행렬 $K \in \mathbb{C} ^{m \times m}$ 을 커널 $k$ 의 그램 행렬 Gram Matrix라고 부른다
    		- $K \equiv (k(x _{i},x _{j}))_{ij}$
    		- $k$ 의 그램행렬이 positive semidefinite이면, $k$ 를 양의 정부호 커널이라고 부른다.
    		- 다시말해 $\{ c _{1},c _{2},\cdots,c _{m} \}\subset \mathbb{C}$ 에 대하여 다음을 만족하는 그램행렬을 갖는 커널 $k$ 를 양의 정부호 커널이라 부른다
    		- $\displaystyle\sum_{i=1}^{m}{\displaystyle\sum_{j=1}^{m}{c _{i}\bar{c _{j}}K _{ij}}} \ge 0$
    	
  • 선형범함수
    - 어떠한 함수 공간VV을 정의역으로 하고, 실수 R\mathbb{R} 또는 복소수 C\mathbb{C} 를 공역으로 하는 함수. 선형범함수들이 모인 벡터공간 L(V,F)\mathcal{L}(V,F)VV 의 쌍대공간이라고 부른다
    - 모든 선형변환은 행렬로 표현될 수 있다는 사실이 필요충분조건이기 때문에 L(V,F)\mathcal{L}(\boldsymbol{V},F) 가 행렬로 표현될 경우 그 크기는 dim(V)×1dim(\boldsymbol{V}) \times 1 이므로 V\boldsymbol{V} 와 차원이 동일하다
    - 같은 체 위에서 정의된 같은 차원을 갖는 벡터공간 V\boldsymbol{V}, L(V,F)\mathcal{L}(\boldsymbol{V},F) 는 동형사상이다는 사실과 필요충분조건이다
    - 조건
    - 순서기저 β={v1,v2,,vn}{\beta}=\{ v _{1}, v _{2},\cdots,v _{n} \} 을 갖는 유한차원 벡터공간 V\boldsymbol{V}β\boldsymbol{\beta} 에 대하여 jj 번째 좌표함수를 fjf _{j} 라고 하자.
    - 정리
    - 이때 β={f1,f2,,fn}\beta ^{*}=\{ f _{1}, f _{2},\cdots,f _{n} \} 는 쌍대공간 V\boldsymbol{V}^{*} 의 순서기저이다
    - 임의의 fVf \in \boldsymbol{V}^{*} 에 대하여 f=i=1nf(xi)fif=\displaystyle\sum_{i=1}^{n}{f(x _{i})}f _{i} 이다

  • 리즈의 표현 정리 Riesz Representation Theorem
    - 정리
    - (H,,)(H,\langle {\cdot },{\cdot } \rangle) 가 힐버트 공간이라 하자. HH 의 선형범함수 fHf \in H ^{*}xHx \in H 에 대해 f(x)=x,wf(\boldsymbol{x})=\langle {\boldsymbol{x}},{\boldsymbol{w}} \ranglefH=wH\| f \|_{H^{*}}=\| \boldsymbol{w} \|_{H} 를 만족시키는 wH\boldsymbol{w} \in H 가 유일하게 존재한다
    - 증명
    1. 직교분해정리
    - 힐버트 공간 HH 의 부분공간 WW 에 대하여 H=WWH=W\oplus W ^{\bot} 을 만족하는 WW ^{\bot} 이 존재한다
    - W=ker(f)={xH:f(x)=0}W=ker(f)=\{ \boldsymbol{x} \in H :f(\boldsymbol{x})=0\} 이라고 하자. ker(f)ker(f) 는 부분공간이므로 H=WWH=W \oplus W ^{\bot} 을 만족시키고, W{0}W \neq \{ \boldsymbol{0} \} 이다. 따라서 y=1\| \boldsymbol{y} \|=1yW\boldsymbol{y}\in W ^{\bot} 을 선택하자. WW ^{\bot} 도 벡터공간이므로, 0이 아닌 원소 하나라도 존재한다면 이러한 y\boldsymbol{y} 의 존재는 반드시 보장된다
    - 임의의 벡터 xH\boldsymbol{x} \in H 에 대하여 다음과 같은 벡터 zH\boldsymbol{z}\in H 를 고려해보자. zf(x)yf(y)x\boldsymbol{z} \equiv f(\boldsymbol{x})\boldsymbol{y}-f(\boldsymbol{y})\boldsymbol{x}
    - f(x),f(y)f(\boldsymbol{x}),f(\boldsymbol{y}) 는 상수임을 유의하자. 이때 ff 의 선형성을 고려하자

  • f(z)=f(f(x)yf(y)x)=f(x)f(y)f(y)f(x)=0f(\boldsymbol{z})=f(f(\boldsymbol{x})\boldsymbol{y}-f(\boldsymbol{y})\boldsymbol{x})=f(\boldsymbol{x})f( \boldsymbol{y})-f(\boldsymbol{y})f(\boldsymbol{x})=0
    - 따라서 zW\boldsymbol{z} \in W 이다.
    - z,y=f(x)yf(y)x,y=0\langle {\boldsymbol{z}},{\boldsymbol{y}} \rangle=\langle {f(\boldsymbol{x})\boldsymbol{y}-f(\boldsymbol{y})\boldsymbol{x}},{\boldsymbol{y}} \rangle=0

  • z,y=f(x)y,yf(y)x,y=f(x)y2f(y)x,y=f(x)f(y)x,y=0\langle {\boldsymbol{z}},{\boldsymbol{y}} \rangle=f(\boldsymbol{x})\langle {\boldsymbol{y}},{\boldsymbol{y}} \rangle-f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=f(\boldsymbol{x})\| \boldsymbol{y} \| ^{2}-f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=f(\boldsymbol{x})-f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=0
    - f(x)=f(y)x,y=<x,f(y)y>f(\boldsymbol{x})=f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=<\boldsymbol{x},\overline{f(\boldsymbol{y})\boldsymbol{y}}>
    - w=f(y)y\boldsymbol{w}=\overline{f(\boldsymbol{y})}\boldsymbol{y} 라고 한다면 f(x)=x,wf(\boldsymbol{x})=\langle {\boldsymbol{x}},{\boldsymbol{w}} \rangle 이다. 이때 코시 슈바르츠 부등식에 의해

  • f=supx=1f(x)=supx=1x,ysupx=1xw\| f \|=sup _{{\| \boldsymbol{x} \|=1}}|f(\boldsymbol{x})|=sup _{\| \boldsymbol{x} \|=1}|\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle| \le sup _{\| \boldsymbol{x} \|=1}\| \boldsymbol{x} \| \cdot \| \boldsymbol{w} \| 이다
    - 임의의 벡터인 xH\boldsymbol{x}\in Hx1W\boldsymbol{x} _{1} \in Wx2W\boldsymbol{x} _{2} \in W ^{\bot } 으로 표현하자
    - x1+x2,w=x2,w\langle {\boldsymbol{x}_{1}+\boldsymbol{x}_{2}},{\boldsymbol{w}} \rangle=\langle {\boldsymbol{x}_{2}},{\boldsymbol{w}} \rangle 인데, supremum 값을 찾으라는 조건이 달려있으므로 x=x2=ww\boldsymbol{x}=\boldsymbol{x}_{2}= \displaystyle\frac{\boldsymbol{w}}{\| \boldsymbol{w} \|}
    - 따라서 f=ww,w=w\| f \|=\langle {\displaystyle\frac{\boldsymbol{w}}{\| \boldsymbol{w} \|}},{\boldsymbol{w}} \rangle=\| \boldsymbol{w} \|

  • 유일성 증명
    - w\boldsymbol{w}' 이 다음을 만족시킨다고 하자
    - f(x)=x,wf(\boldsymbol{x})=\langle {\boldsymbol{x}},{\boldsymbol{w}'} \rangle
    - 보조정리: 힐버트 공간 HH 의 임의의 원소 xHx\in H 와 어떤 원소 y,zHy,z \in H x,y=x,z\langle {x},{y} \rangle =\langle {x},{z} \rangle 라면 y=zy=z 임을 활용한다. x,yz=0\langle {x},{y-z} \rangle=0 의 식에서 x=yzx=y-z 를 대입하여 증명할 수 있다
    - 따라서 w=w\boldsymbol{w}=\boldsymbol{w}'

    	- * Friedberg 선형대수 한글 5판 380 정리 6.8에 다른 형태의 정의가 존재함
  • Evaluation functional
    - X\mathcal{X} 가 임의의 집합이고, H\mathcal{H} 가 실함수를 원소로 하는 힐버트 공간이라 하자. evaluation functional은 다음과 같이 정의된다
    - Lx:ff(x)L _{x}: f \to f(x) \,\, (임의의 fHf \in \mathcal{H} 에 대하여)
    - functional이란 함수를 Input으로 받는 함수이다. evaluation이란 어떤 점 x\boldsymbol{x} 에서 함수 ffx\boldsymbol{x} 를 대입하여 f(x)f(\boldsymbol{x}) 를 얻는 과정을 의미한다.

  • 재생 커널 힐버트(RKHS) Reproducing Kernel Hilbert Space
    - 어떤 힐버트 공간 H\mathcal{H} 가 있고, 모든 xXx \in \mathcal{X} 에 대하여, 모든 fHf \in \mathcal{H} 에 대하여 평가범함수 LxL _{x} 가 연속이고 LxL _{x} 가 유계되어있다면(어떤 MM이 존재하여) H\mathcal{H} 를 reproducing hilbert space라 부른다
    - Lx(f)=f(x)M|L _{x}(f)|=|f(x)| \le M
    - Riesz의 표현정리와 결합하자. 각각 어떤 영집합이 아닌 집합 X\mathcal{X}, 힐버트공간 H\mathcal{H}, H\mathcal{H} 의 쌍대공간 H\mathcal{H}^{*}가 있다하자. 임의의 두 원소x,yXx,y \in \mathcal{X} , 임의의 함수 ff, 어떤 선형범함수 Lx,LyHL _{x}, L _{y} \in \mathcal{H}^{*} 가 있다하자
    - Riesz 표현정리에 의하면 Lx(f)=f,KxH=f(x)L _{x}(f)=\langle {f},{K _{x}} \rangle _{\mathcal{H}}=f(x) , Ly(f)=f,KyH=f(y)L _{y}(f)=\langle {f},{K _{y}} \rangle _{\mathcal{H}}=f(y)를 만족시키는 Kx,KyHK _{x},K _{y} \in \mathcal{H} 가 존재한다
    - 그런데 Kx,Ky:XRK _{x},K _{y} : \mathcal{X} \to \mathbb{R} 이다. 따라서
    - Lx(Ky)=Ky,KxH=Ky(x)L _{x}(K _{y})=\langle {K _{y}},{K _{x}} \rangle _{\mathcal{H}}=K _{y}(x)
    - Ly(Kx)=Kx,KyH=Kx(y)L _{y}(K _{x})=\langle {K _{x}},{K _{y}} \rangle _{\mathcal{H}}=K _{x}(y) 이다
    - 실수체 R\mathbb{R} 위에선 내적은 symmetry한 함수이므로 다음과 같이 reproducing kernel을 정의할 수 있다
    - K(x,y)=Kx,KyH=Ky(x)=Kx(y)K(x,y)=\langle {K _{x}},{K _{y}} \rangle _{\mathcal{H}}=K _{y}(x)=K _{x}(y)
    - i,j=1ncicjK(xi,xj)=i=1nciKxi,j=1ncjKxj=i=1nciKxiH20\displaystyle\sum_{i,j=1}^{n}{c _{i} c _{j}K(x _{i},x _{j})}=\langle {\displaystyle\sum_{i=1}^{n}{c _{i}K _{xi}}},{\displaystyle\sum_{j=1}^{n}{c _{j}K _{xj}}} \rangle=\| \displaystyle\sum_{i=1}^{n}{c _{i}K _{xi}} \| ^{2}_{H} \ge 0 이므로 KK 는 positive definite kernel이다

  • 표헌자 정리 representater theorem
    - 조건
    - 입력 집합 XX 와 positive semidefinite k:X×XRk : X \times X \to \mathbb{R} 로 주어진다고 하자.
    - 학습 데이터 D={(xi,yi)}i=1mX×RD=\{ (x _{i},y _{i}) \}_{i=1} ^{m} \subset X \times \mathbb{R} 이 있다고 하자
    - 정의
    - 우리가 근사하고 싶어하는 목적함수 ff 가 적절한 커널 kk 에 대하여
    - f()=i=1mαik(,xi)f(\cdot )=\displaystyle\sum_{i=1}^{m}{\alpha _{i}k(\cdot ,x _{i})} 와 꼴로 나타난다고 하는 정리이다
    - 이때 k(,xi)=ϕ(xi)()Hkk(\cdot ,x _{i})=\phi(x _{i})(\cdot ) \in H _{k} 를 표현자representer라 부른다.
    - 표현자는 커널의 두 입력변수중 하나가 xix _{i} 로 픽스된 형태이다
    - ϕ(xi)()\phi(x _{i})(\cdot ) 는 피처 맵 feature map으로 임의의 데이터인 XX를 그 특징feature을 해석하기 좋은 힐버트 공간으로 옮기는 함수이다.
    - 재생 커널 힐버트 공간에서 학습 데이터에 적합한 임의의 함수는 표현자들의 유한 한 선형결합으로 나타낼 수 있다 는 정리이다.
    - 데이터과학적 측면에서 ϕ(xi)()\phi(x _{i})(\cdot ) 는 피처 맵 feature map이라 불리는데, 임의의 데이터를 우리가 그 특징feature를 알 수 있는 힐버트 공간으로 옮기고, 그 유한한 합으로 우리가 원하는 함수를 표현할 수 있다는 말은, 우리가 그동안 배운 많은 머신러닝 기법들이 왜 작동하였는가를 정당화 한다.
profile
안녕하세요!

0개의 댓글