[ Wasserstein ] 1. Prerequisite

d4r6j·2024년 7월 28일

methodology-ai

목록 보기
4/8
post-thumbnail

axiom of completeness

  • 완비성 공리 in Real number R\mathbb{R} (실수계) 부터 시작.

XXR\mathbb{R} 의 공집합이 아닌 부분집합 이라 하자.

bounded

  • xX\forall x \in X 에 대하여 axa \geq x  aR\exist \;a \in \mathbb{R} 일 때 XX 를 위로 유계 (bounded above) 라 하고, aaXX 의 상계 (upper bound) 라고 한다.
  • xX\forall x \in X 에 대하여 bxb \leq x  bR\exist \; b \in \mathbb{R} 일 때 XX 를 아래로 유계 (bounded below) 라 하고, bbXX 의 하계 (lower bound) 라고 한다.
  • XX 가 bounded above 인 동시에 bounded below 일 때는 간단히 XX 를 유계 (bounded) 라 한다.

supremum

이때 다음 조건을 만족하는 aRa \in \mathbb{R}XX 의 상한 또는 최소 상계 라고 한다.

  • aaXX 의 least upper bound (상계) 이다. (sup  X=a)(\sup \; X = a)
  • bbXX 의 upper bound 이면 aba \leq b 이다. 즉, aa 는 상계 중 제일 작은 것이다.

infimum

이때 다음 조건을 만족하는 aRa \in \mathbb{R}XX 의 하한 또는 최대 하계 라고 한다.

  • aaXX 의 greatest lower bound (하계) 이다. (inf  X=a)(\inf \; X = a)
  • bbXX 의 lower bound 이면 aba \geq b 이다. 즉, aa 는 하계 중 제일 큰 것이다.

axiom of completeness

R\mathbb{R} 이 완비성공간이라는 것을 이야기하고, R\mathbb{R} 에서만 성립하는 공리.

  • XXR\mathbb{R} 의 공집합이 아닌 부분집합이고, 위로 유계 이면 반드시 XX 의 상한 supX\sup X 가 존재.
  • XXR\mathbb{R} 의 공집합이 아닌 부분집합이고, 아래로 유계 이면 반드시 XX 의 하한 infX\inf X 가 존재.

completeness

일단 close set 으로 이해. topology 에서 정의는 좀 더 들어가야한다.

거리 공간 (X,d)(X, d) 에 대해 AXA \subset X 라고 하자.

  1. Cauchy sequence.
  2. (X,d)(X, d) 상의 Cauchy sequence 이 수렴하는 점들이 XX 에 속하면 (X,d)(X, d) 는 complete.
  3. Closure.. 등등..

cauchy sequence ( 코시 수열 )

  ϵ>0\forall \; \epsilon > 0 에 대하여 m,nNm, n \geq N 이면,

xmxn<ϵ|x_m-x_n| < \epsilon

을 만족하는 자연수 NN 이 존재할 때, 수열 {xn}\{x_n\} 은 Cauchy sequence 라고 한다.

그렇다면.. 실수 공간이 아니라 어떤 space 이면? 그것이 distribution 이라면?

KS statistics ( TV : Total Variation 과 비슷 )

D=supxFn(x)F(x)D = \sup_x\mid F_n(x) - F(x) \mid

measurable 값의 차이가 가장 큰 값.

contraction for distributions

  • 고정된 learning rate η\eta 의 경우, stochastic gradient descent (SGD)(SGD) 는 state vector ww 를 사용하는 Markov process 이다.

  • 이 과정의 점근적인 (asymptotic) 특성들에 관하여 많은 연구가 있지만, 점근적인 체계가 가정될 때 까지 필요한 반복 횟수에 관하여 많이 알려져 있지 않다.

  • 점의 매핑 (mappings of points) 에서 분포의 매핑 (mappings of distributions) 으로 축약 (contractions) 의 개념을 확장함으로써 후자를 다룬다.

mappings of points

  • 유클리디안 ( Euclidean ) 거리 : 변수들의 차이를 제곱하여 합산한 거리.

    가장 일반적인, 물리적인 거리.

    D(X,Y)=i=1n(XiYi)2D(X, Y) = \sqrt{\sum^{n}_{i=1}(X_i-Y_i)^2}

    d12=(x2x1)2+(y2y1)2=(x1x2)2+(y1y2)2d_{12} = \sqrt{(x_2-x_1)^2 + (y_2-y_1)^2} = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}

  • 맨하튼 거리 ( Manhattan distance ) : 변수 값들의 차이를 절대값화 하여 합한 거리 측정

    초록색이 Euclidean distance.

    D(X,Y)=i=1nXiYiD(X, Y) = \sum^n_{i=1}|X_i-Y_i|

    • green : 유클리디안 거리
    • blue & red : 맨하튼 거리
  • Minkowski distance : Euclidean distance general version.

    D(X,Y)=(i=1nXiYim)1m,m>0D(X, Y) = \left(\sum^n_{i=1} |X_i - Y_i|^m \right)^{\frac{1}{m}}, \quad m>0
    • 제곱 대신 mm 을 사용하게 된다.
    • 유클리디안 ( Euclidean ) 거리, 맨하튼 ( Manhattan ) 거리 의 일반화
    • 거리를 산정하는 일반식, 함수에 포함된 지수들을 조정해 줌으로써 다양한 방식의 거리 측정.

mappings of distributions

  • def:def : distance

    • d(x,y)0d(x, y) \geq 0
    • d(x,y)=0x=y,x=yd(x,y)=0d(x, y) = 0 \rightarrow x = y, \quad x=y \rightarrow d(x,y) = 0
    • d(x,y)=d(y,x)d(x,y) = d(y,x) : symmetric
    • d(x,y)d(x,z)+d(z,y)d(x,y) \leq d(x, z) + d(z, y)
  • Kullback-Leibler divergence

    • d(x,y)d(y,x)d(x, y) \neq d(y,x)
    • d(x,y)d(x,z)+d(z,y)d(x, y) \nleq d(x,z) + d(z,y)

    • DKL(pq)D_{KL}(p \parallel q), DKL(qp)D_{KL}(q \parallel p) 값을 보면 좌측의 Two Gaussians 는 같지만, 우측의 Guassian and Guassian Mixture 는 다르다.

wasserstein metric

Radon-nikodym 의 정리 생각나네.. 기하 통계 봐야하는데..

for a radon space

Radon space (M,d)(M, d)

P(M,d)P(M,d) 는 공간에 대한 모든 분포의 집합 이라고 하자.

X,YP(M,d)X, Y \in P(M,d) 두 분포 사이의 Wasserstein distance 는 아래와 같다.

Wz(X,Y)=[infγΓ(X,Y)x,ydz(x,y)dγ(x,y)]1zW_{z}(X, Y) = \left[ \inf_{\gamma \in \Gamma(X, Y)} \int_{x, y}d^{z}(x, y)d\gamma(x, y)\right]^{\frac{1}{z}}

여기서 Γ(X,Y)\Gamma(X,Y) 는 marginals XXYY 를 포함한 (M,d)×(M,d)(M,d) \times (M,d) 에 대한 확률 분포들의 집합.

  • Γ(X,Y):\Gamma(X, Y) : 두 확률 분포 X,YX, Y 의 joint dist 들의 집합
  • γ\gamma : 그 중 하나 zz : 지수 조정 → 다양한 방식으로 거리 조정.
=infγΓ(X,Y)Eγ[d(X,Y)]= \inf_{\gamma \in \Gamma(X,Y)} \mathbb{E}^{\gamma}[d(X, Y)]

d(X,Y)d(X, Y) 의 expectation 을 가장 작게 추정한 값.

explain

X(a)=(0,ZX(a)),  Y(a)=(θ,ZY(a))X(a) = (0, Z_{X}(a)),\; Y(a) = (\theta, Z_{Y}(a))
d(X,Y)=(θ02+ZX(a)ZY(a)2)12θd(X, Y) = (|\theta-0|^2 + |Z_{X}(a) - Z_Y(a)|^2)^{\frac{1}{2}} \geq|\theta|

if:ZX=ZYd(X,Y)=θ{\rm if} : Z_X = Z_Y \rightarrow d(X, Y) = |\theta|infimum..

Wasserstein metric 은 두 가지 매우 중요한 속성이 있다.
1. complete (완비성) 을 의미한다.
2. (M,d)(M,d) 에 있는 축약은 (P(M,d),Wz)(P(M,d), W_z) 에 있는 축약을 유도한다 (induces).

measure theory, and next !!

ϕ:MM\phi : M \rightarrow M 매핑이 주어지면

  • MM 에 pointwise ϕ\phi 로 적용하여 P(M,d)P(M,d)P(M,d) \rightarrow P(M,d) 를 구성할 수 있다.

XP(M,d)X \in P(M,d)X:=p(X)X' := \mathbf{p}(X) 라 하자.

  • 모든 특정 가능한 이벤트 EE 에 대해서 ϕ1(E)\phi^{-1}(E) 에 의한 pre-image ϕ1(E)\phi^{-1}(E) 를 나타낸다.

그 다음 X(E)=X(ϕ1(E))X'(E) = X(\phi^{-1}(E)) 를 갖는다.

이 형태는 많이 봤다.

Random VariableDistribution, 그리고 Optimal transport . . .

transformer 기하 내용도 봐야하고, metric, loss 도 더 연구를 해야하고, entropy 개념도 정리하고, 현재 잘 나오는 SOTA 논문도 보고, 시스템, 제품 개발도 해야하는데.. 세상의 속도는 너무 빨리 앞으로 나간다. 정말 다들 너무 잘 따라간다.. ㅎㅎ 열심히 해야지!

ref

0개의 댓글