표현자 정리

milkbuttercheese·2023년 3월 16일

기타수학

목록 보기

4/8

힐버트 공간 Hilbert space
- 내적이 정의된 완비(모든 코시수열이 수렴한다)공간을 힐버트 공간이라고 부른다
- 대부분의 AI 이론이 전개되는 실수공간,복소수공간 $\mathbb{R} ^{n}$ , $\mathbb{C} ^{n}$ 이 힐버트 공간이다
- AI에선 두 대상간의 유사도 similarity를 측정하고자 하는데, 이에 가장 자주 활용되는 것이 바로 내적 inner product을 활용한 코사인 유사도이다. ( $CS(\boldsymbol{A},\boldsymbol{B})=\boldsymbol{\displaystyle\frac{\langle {\boldsymbol{A}},\boldsymbol{B} \rangle}{\| \boldsymbol{A} \|\| \boldsymbol{B} \|}}$ )
- 코시 수열 cachy sequence
- 수열이 진행될수록 두 원소 값이 점점 가까워 지는 수열
- 임의의 $\epsilon>0$ 에 대해, 적당한 자연수 $N$ 이 존재하여 $m,n >N$ 일때 $\| x _{m}- x _{n} \|<\epsilon$ 인 수열이다
- 코시수열의 특징
- 수렴하는 수열은 코시 수열이다
- $\mathbb{R} ^{n}$ 에서의 코시 수열은 유계이다
- $\mathbb{R} ^{n}$ 에서의 코시 수열은 수렴한다
$L ^{p}$ 공간
- $L ^{p}$ 공간이란 Normed Vector space(Norm이 정의된 vector space)의 한종류이다. 이때 $p=2$ 인경우 Hilbert Space가 된다
- 임의의 집합 $\mathcal{X}$ 에서 실수로 가는 함수 $f:\mathcal{X}\to \mathbb{R}$ 를 생각하자. 그리고 이중 다음 조건을 만족하는 함수 집합을 생각하자
- $\| f \|_{p}=(\displaystyle\int_{\mathcal{X}}^{}{|f(x)| ^{p}}dx) ^{\displaystyle\frac{1}{p}} < \infty$
- 위의 조건을 만족하고, 덧셈 $(f+g)(x)=f(x)+g(x)$ , 스칼라곱 $(\alpha f)(x)=\alpha f(x)$ 이 정의된 함수들의 집합은 Vector space이다
커널 kernel (Ref) (함수해석학 내에서의 커널을 의미함)
- 조건
- 입력 공간 input space $X \neq \emptyset$ 에서 힐베르트공간 $(H,<\cdot ,\cdot >)$ 로의 사상 $\phi:X \to H$ 를 피쳐 사상 feature map(혹은 mapping function)이라 부르자. $H$ 를 피처 공간이라 부르기도 한다
- $(H,<\cdot ,\cdot >)$ 의 내적 $\langle {\cdot },{\cdot } \rangle: H \times H \to \mathbb{C}$ 에 대하여 다음과 같이 정의된 함수 $k : X \times X \to \mathbb{C}$ 를 커널 Kernel이라고 정의한다
- 정의
- $k(x _{1},x _{2}) \equiv \langle {\phi(x _{1})},{\phi(x _{2})} \rangle$
- 커널의 역할
1. 입력 공간 $X$ 가 어떠한 형태인지를 사전에 정의하지 않은 이유는, $X$ 가 사진이나 문서데이터등의 다양한 형태가 올 수 있기 때문이다. 이 데이터들의 유사도를 측정하기 위해 우선 이 데이터들을 힐버트 공간의 벡터로 대응시키고( $\phi$ ), 대응된 벡터들끼리 내적시키는 ( $\langle {\cdot },{\cdot } \rangle$ ) 함수를 커널kernel이라 부르는 것이다
2. 또한 입력 공간 $X$ 의 데이터 분포를 경계짓는 초평면이 선형적으로 존재하지 않는경우 (non-linear boundary), 데이터의 분류가 잘되는 고차원 공간 $H$ 으로 옮겨 연산하기 위해 활용되기도 한다
```
	- 양정부호 커널 positive definite kernel
		- $m$ 개의 데이터 $\{ x _{1}, x _{2},\cdots,x _{m} \} \subset X$  에 대하여, 다음과 같은 행렬 $K \in \mathbb{C} ^{m \times m}$ 을 커널 $k$ 의 그램 행렬 Gram Matrix라고 부른다
		- $K \equiv (k(x _{i},x _{j}))_{ij}$
		- $k$ 의 그램행렬이 positive semidefinite이면, $k$ 를 양의 정부호 커널이라고 부른다.
		- 다시말해 $\{ c _{1},c _{2},\cdots,c _{m} \}\subset \mathbb{C}$ 에 대하여 다음을 만족하는 그램행렬을 갖는 커널 $k$ 를 양의 정부호 커널이라 부른다
		- $\displaystyle\sum_{i=1}^{m}{\displaystyle\sum_{j=1}^{m}{c _{i}\bar{c _{j}}K _{ij}}} \ge 0$
	
```
선형범함수
- 어떠한 함수 공간 $V$ 을 정의역으로 하고, 실수 $\mathbb{R}$ 또는 복소수 $\mathbb{C}$ 를 공역으로 하는 함수. 선형범함수들이 모인 벡터공간 $\mathcal{L}(V,F)$ 를 $V$ 의 쌍대공간이라고 부른다
- 모든 선형변환은 행렬로 표현될 수 있다는 사실이 필요충분조건이기 때문에 $\mathcal{L}(\boldsymbol{V},F)$ 가 행렬로 표현될 경우 그 크기는 $dim(\boldsymbol{V}) \times 1$ 이므로 $\boldsymbol{V}$ 와 차원이 동일하다
- 같은 체 위에서 정의된 같은 차원을 갖는 벡터공간 $\boldsymbol{V}$ , $\mathcal{L}(\boldsymbol{V},F)$ 는 동형사상이다는 사실과 필요충분조건이다
- 조건
- 순서기저 ${\beta}=\{ v _{1}, v _{2},\cdots,v _{n} \}$ 을 갖는 유한차원 벡터공간 $\boldsymbol{V}$ 와 $\boldsymbol{\beta}$ 에 대하여 $j$ 번째 좌표함수를 $f _{j}$ 라고 하자.
- 정리
- 이때 $\beta ^{*}=\{ f _{1}, f _{2},\cdots,f _{n} \}$ 는 쌍대공간 $\boldsymbol{V}^{*}$ 의 순서기저이다
- 임의의 $f \in \boldsymbol{V}^{*}$ 에 대하여 $f=\displaystyle\sum_{i=1}^{n}{f(x _{i})}f _{i}$ 이다
리즈의 표현 정리 Riesz Representation Theorem
- 정리
- $(H,\langle {\cdot },{\cdot } \rangle)$ 가 힐버트 공간이라 하자. $H$ 의 선형범함수 $f \in H ^{*}$ 와 $x \in H$ 에 대해 $f(\boldsymbol{x})=\langle {\boldsymbol{x}},{\boldsymbol{w}} \rangle$ 와 $\| f \|_{H^{*}}=\| \boldsymbol{w} \|_{H}$ 를 만족시키는 $\boldsymbol{w} \in H$ 가 유일하게 존재한다
- 증명
1. 직교분해정리
- 힐버트 공간 $H$ 의 부분공간 $W$ 에 대하여 $H=W\oplus W ^{\bot}$ 을 만족하는 $W ^{\bot}$ 이 존재한다
- $W=ker(f)=\{ \boldsymbol{x} \in H :f(\boldsymbol{x})=0\}$ 이라고 하자. $ker(f)$ 는 부분공간이므로 $H=W \oplus W ^{\bot}$ 을 만족시키고, $W \neq \{ \boldsymbol{0} \}$ 이다. 따라서 $\| \boldsymbol{y} \|=1$ 인 $\boldsymbol{y}\in W ^{\bot}$ 을 선택하자. $W ^{\bot}$ 도 벡터공간이므로, 0이 아닌 원소 하나라도 존재한다면 이러한 $\boldsymbol{y}$ 의 존재는 반드시 보장된다
- 임의의 벡터 $\boldsymbol{x} \in H$ 에 대하여 다음과 같은 벡터 $\boldsymbol{z}\in H$ 를 고려해보자. $\boldsymbol{z} \equiv f(\boldsymbol{x})\boldsymbol{y}-f(\boldsymbol{y})\boldsymbol{x}$
- $f(\boldsymbol{x}),f(\boldsymbol{y})$ 는 상수임을 유의하자. 이때 $f$ 의 선형성을 고려하자
$f(\boldsymbol{z})=f(f(\boldsymbol{x})\boldsymbol{y}-f(\boldsymbol{y})\boldsymbol{x})=f(\boldsymbol{x})f( \boldsymbol{y})-f(\boldsymbol{y})f(\boldsymbol{x})=0$
- 따라서 $\boldsymbol{z} \in W$ 이다.
- $\langle {\boldsymbol{z}},{\boldsymbol{y}} \rangle=\langle {f(\boldsymbol{x})\boldsymbol{y}-f(\boldsymbol{y})\boldsymbol{x}},{\boldsymbol{y}} \rangle=0$
$\langle {\boldsymbol{z}},{\boldsymbol{y}} \rangle=f(\boldsymbol{x})\langle {\boldsymbol{y}},{\boldsymbol{y}} \rangle-f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=f(\boldsymbol{x})\| \boldsymbol{y} \| ^{2}-f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=f(\boldsymbol{x})-f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=0$
- $f(\boldsymbol{x})=f(\boldsymbol{y})\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle=<\boldsymbol{x},\overline{f(\boldsymbol{y})\boldsymbol{y}}>$
- $\boldsymbol{w}=\overline{f(\boldsymbol{y})}\boldsymbol{y}$ 라고 한다면 $f(\boldsymbol{x})=\langle {\boldsymbol{x}},{\boldsymbol{w}} \rangle$ 이다. 이때 코시 슈바르츠 부등식에 의해
$\| f \|=sup _{{\| \boldsymbol{x} \|=1}}|f(\boldsymbol{x})|=sup _{\| \boldsymbol{x} \|=1}|\langle {\boldsymbol{x}},{\boldsymbol{y}} \rangle| \le sup _{\| \boldsymbol{x} \|=1}\| \boldsymbol{x} \| \cdot \| \boldsymbol{w} \|$ 이다
- 임의의 벡터인 $\boldsymbol{x}\in H$ 를 $\boldsymbol{x} _{1} \in W$ 와 $\boldsymbol{x} _{2} \in W ^{\bot }$ 으로 표현하자
- $\langle {\boldsymbol{x}_{1}+\boldsymbol{x}_{2}},{\boldsymbol{w}} \rangle=\langle {\boldsymbol{x}_{2}},{\boldsymbol{w}} \rangle$ 인데, supremum 값을 찾으라는 조건이 달려있으므로 $\boldsymbol{x}=\boldsymbol{x}_{2}= \displaystyle\frac{\boldsymbol{w}}{\| \boldsymbol{w} \|}$
- 따라서 $\| f \|=\langle {\displaystyle\frac{\boldsymbol{w}}{\| \boldsymbol{w} \|}},{\boldsymbol{w}} \rangle=\| \boldsymbol{w} \|$
유일성 증명
- $\boldsymbol{w}'$ 이 다음을 만족시킨다고 하자
- $f(\boldsymbol{x})=\langle {\boldsymbol{x}},{\boldsymbol{w}'} \rangle$
- 보조정리: 힐버트 공간 $H$ 의 임의의 원소 $x\in H$ 와 어떤 원소 $y,z \in H$ $\langle {x},{y} \rangle =\langle {x},{z} \rangle$ 라면 $y=z$ 임을 활용한다. $\langle {x},{y-z} \rangle=0$ 의 식에서 $x=y-z$ 를 대입하여 증명할 수 있다
- 따라서 $\boldsymbol{w}=\boldsymbol{w}'$
```
	- * Friedberg 선형대수 한글 5판 380 정리 6.8에 다른 형태의 정의가 존재함
```
Evaluation functional
- $\mathcal{X}$ 가 임의의 집합이고, $\mathcal{H}$ 가 실함수를 원소로 하는 힐버트 공간이라 하자. evaluation functional은 다음과 같이 정의된다
- $L _{x}: f \to f(x) \,\,$ (임의의 $f \in \mathcal{H}$ 에 대하여)
- functional이란 함수를 Input으로 받는 함수이다. evaluation이란 어떤 점 $\boldsymbol{x}$ 에서 함수 $f$ 에 $\boldsymbol{x}$ 를 대입하여 $f(\boldsymbol{x})$ 를 얻는 과정을 의미한다.
재생 커널 힐버트(RKHS) Reproducing Kernel Hilbert Space
- 어떤 힐버트 공간 $\mathcal{H}$ 가 있고, 모든 $x \in \mathcal{X}$ 에 대하여, 모든 $f \in \mathcal{H}$ 에 대하여 평가범함수 $L _{x}$ 가 연속이고 $L _{x}$ 가 유계되어있다면(어떤 $M$ 이 존재하여) $\mathcal{H}$ 를 reproducing hilbert space라 부른다
- $|L _{x}(f)|=|f(x)| \le M$
- Riesz의 표현정리와 결합하자. 각각 어떤 영집합이 아닌 집합 $\mathcal{X}$ , 힐버트공간 $\mathcal{H}$ , $\mathcal{H}$ 의 쌍대공간 $\mathcal{H}^{*}$ 가 있다하자. 임의의 두 원소 $x,y \in \mathcal{X}$ , 임의의 함수 $f$ , 어떤 선형범함수 $L _{x}, L _{y} \in \mathcal{H}^{*}$ 가 있다하자
- Riesz 표현정리에 의하면 $L _{x}(f)=\langle {f},{K _{x}} \rangle _{\mathcal{H}}=f(x)$ , $L _{y}(f)=\langle {f},{K _{y}} \rangle _{\mathcal{H}}=f(y)$ 를 만족시키는 $K _{x},K _{y} \in \mathcal{H}$ 가 존재한다
- 그런데 $K _{x},K _{y} : \mathcal{X} \to \mathbb{R}$ 이다. 따라서
- $L _{x}(K _{y})=\langle {K _{y}},{K _{x}} \rangle _{\mathcal{H}}=K _{y}(x)$
- $L _{y}(K _{x})=\langle {K _{x}},{K _{y}} \rangle _{\mathcal{H}}=K _{x}(y)$ 이다
- 실수체 $\mathbb{R}$ 위에선 내적은 symmetry한 함수이므로 다음과 같이 reproducing kernel을 정의할 수 있다
- $K(x,y)=\langle {K _{x}},{K _{y}} \rangle _{\mathcal{H}}=K _{y}(x)=K _{x}(y)$
- $\displaystyle\sum_{i,j=1}^{n}{c _{i} c _{j}K(x _{i},x _{j})}=\langle {\displaystyle\sum_{i=1}^{n}{c _{i}K _{xi}}},{\displaystyle\sum_{j=1}^{n}{c _{j}K _{xj}}} \rangle=\| \displaystyle\sum_{i=1}^{n}{c _{i}K _{xi}} \| ^{2}_{H} \ge 0$ 이므로 $K$ 는 positive definite kernel이다

표헌자 정리 representater theorem
- 조건
- 입력 집합 $X$ 와 positive semidefinite $k : X \times X \to \mathbb{R}$ 로 주어진다고 하자.
- 학습 데이터 $D=\{ (x _{i},y _{i}) \}_{i=1} ^{m} \subset X \times \mathbb{R}$ 이 있다고 하자
- 정의
- 우리가 근사하고 싶어하는 목적함수 $f$ 가 적절한 커널 $k$ 에 대하여
- $f(\cdot )=\displaystyle\sum_{i=1}^{m}{\alpha _{i}k(\cdot ,x _{i})}$ 와 꼴로 나타난다고 하는 정리이다
- 이때 $k(\cdot ,x _{i})=\phi(x _{i})(\cdot ) \in H _{k}$ 를 표현자representer라 부른다.
- 표현자는 커널의 두 입력변수중 하나가 $x _{i}$ 로 픽스된 형태이다
- $\phi(x _{i})(\cdot )$ 는 피처 맵 feature map으로 임의의 데이터인 $X$ 를 그 특징feature을 해석하기 좋은 힐버트 공간으로 옮기는 함수이다.
- 재생 커널 힐버트 공간에서 학습 데이터에 적합한 임의의 함수는 표현자들의 유한 한 선형결합으로 나타낼 수 있다 는 정리이다.
- 데이터과학적 측면에서 $\phi(x _{i})(\cdot )$ 는 피처 맵 feature map이라 불리는데, 임의의 데이터를 우리가 그 특징feature를 알 수 있는 힐버트 공간으로 옮기고, 그 유한한 합으로 우리가 원하는 함수를 표현할 수 있다는 말은, 우리가 그동안 배운 많은 머신러닝 기법들이 왜 작동하였는가를 정당화 한다.

milkbuttercheese

안녕하세요!

이전 포스트

Fast Fourier Transformation

다음 포스트

표현자 정리

기타수학

Fast Fourier Transformation

테일러급수에서 2nd symmetry derivative 유도

0개의 댓글