axiom of completeness
완비성 공리 in Real number R \mathbb{R} R (실수계) 부터 시작.
X X X 가 R \mathbb{R} R 의 공집합이 아닌 부분집합 이라 하자.
bounded
∀ x ∈ X \forall x \in X ∀ x ∈ X 에 대하여 a ≥ x a \geq x a ≥ x 인 ∃ a ∈ R \exist \;a \in \mathbb{R} ∃ a ∈ R 일 때 X X X 를 위로 유계 (bounded above) 라 하고, a a a 를 X X X 의 상계 (upper bound) 라고 한다.
∀ x ∈ X \forall x \in X ∀ x ∈ X 에 대하여 b ≤ x b \leq x b ≤ x 인 ∃ b ∈ R \exist \; b \in \mathbb{R} ∃ b ∈ R 일 때 X X X 를 아래로 유계 (bounded below) 라 하고, b b b 를 X X X 의 하계 (lower bound) 라고 한다.
X X X 가 bounded above 인 동시에 bounded below 일 때는 간단히 X X X 를 유계 (bounded) 라 한다.
supremum
이때 다음 조건을 만족하는 a ∈ R a \in \mathbb{R} a ∈ R 를 X X X 의 상한 또는 최소 상계 라고 한다.
a a a 는 X X X 의 least upper bound (상계) 이다. ( sup X = a ) (\sup \; X = a) ( sup X = a )
b b b 가 X X X 의 upper bound 이면 a ≤ b a \leq b a ≤ b 이다. 즉, a a a 는 상계 중 제일 작은 것이다.
infimum
이때 다음 조건을 만족하는 a ∈ R a \in \mathbb{R} a ∈ R 를 X X X 의 하한 또는 최대 하계 라고 한다.
a a a 는 X X X 의 greatest lower bound (하계) 이다. ( inf X = a ) (\inf \; X = a) ( inf X = a )
b b b 가 X X X 의 lower bound 이면 a ≥ b a \geq b a ≥ b 이다. 즉, a a a 는 하계 중 제일 큰 것이다.
axiom of completeness
R \mathbb{R} R 이 완비성공간이라는 것을 이야기하고, R \mathbb{R} R 에서만 성립하는 공리.
X X X 가 R \mathbb{R} R 의 공집합이 아닌 부분집합이고, 위로 유계 이면 반드시 X X X 의 상한 sup X \sup X sup X 가 존재.
X X X 가 R \mathbb{R} R 의 공집합이 아닌 부분집합이고, 아래로 유계 이면 반드시 X X X 의 하한 inf X \inf X inf X 가 존재.
completeness
일단 close set 으로 이해. topology 에서 정의는 좀 더 들어가야한다.
거리 공간 ( X , d ) (X, d) ( X , d ) 에 대해 A ⊂ X A \subset X A ⊂ X 라고 하자.
Cauchy sequence.
( X , d ) (X, d) ( X , d ) 상의 Cauchy sequence 이 수렴하는 점들이 X X X 에 속하면 ( X , d ) (X, d) ( X , d ) 는 complete.
Closure.. 등등..
cauchy sequence ( 코시 수열 )
∀ ϵ > 0 \forall \; \epsilon > 0 ∀ ϵ > 0 에 대하여 m , n ≥ N m, n \geq N m , n ≥ N 이면,
∣ x m − x n ∣ < ϵ |x_m-x_n| < \epsilon ∣ x m − x n ∣ < ϵ
을 만족하는 자연수 N N N 이 존재할 때, 수열 { x n } \{x_n\} { x n } 은 Cauchy sequence 라고 한다.
그렇다면.. 실수 공간이 아니라 어떤 space 이면? 그것이 distribution 이라면?
KS statistics ( TV : Total Variation 과 비슷 )
D = sup x ∣ F n ( x ) − F ( x ) ∣ D = \sup_x\mid F_n(x) - F(x) \mid D = x sup ∣ F n ( x ) − F ( x ) ∣
measurable 값의 차이가 가장 큰 값.
contraction for distributions
고정된 learning rate η \eta η 의 경우, stochastic gradient descent ( S G D ) (SGD) ( S G D ) 는 state vector w w w 를 사용하는 Markov process 이다.
이 과정의 점근적인 (asymptotic) 특성들에 관하여 많은 연구가 있지만, 점근적인 체계가 가정될 때 까지 필요한 반복 횟수에 관하여 많이 알려져 있지 않다.
점의 매핑 (mappings of points) 에서 분포의 매핑 (mappings of distributions) 으로 축약 (contractions) 의 개념을 확장함으로써 후자를 다룬다.
mappings of points
유클리디안 ( Euclidean ) 거리 : 변수들의 차이를 제곱하여 합산한 거리.
가장 일반적인, 물리적인 거리.
D ( X , Y ) = ∑ i = 1 n ( X i − Y i ) 2 D(X, Y) = \sqrt{\sum^{n}_{i=1}(X_i-Y_i)^2} D ( X , Y ) = i = 1 ∑ n ( X i − Y i ) 2
d 12 = ( x 2 − x 1 ) 2 + ( y 2 − y 1 ) 2 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d_{12} = \sqrt{(x_2-x_1)^2 + (y_2-y_1)^2} = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2} d 1 2 = ( x 2 − x 1 ) 2 + ( y 2 − y 1 ) 2 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2
mappings of distributions
wasserstein metric
Radon-nikodym 의 정리 생각나네.. 기하 통계 봐야하는데..
for a radon space
Radon space ( M , d ) (M, d) ( M , d )
P ( M , d ) P(M,d) P ( M , d ) 는 공간에 대한 모든 분포의 집합 이라고 하자.
X , Y ∈ P ( M , d ) X, Y \in P(M,d) X , Y ∈ P ( M , d ) 두 분포 사이의 Wasserstein distance 는 아래와 같다.
W z ( X , Y ) = [ inf γ ∈ Γ ( X , Y ) ∫ x , y d z ( x , y ) d γ ( x , y ) ] 1 z W_{z}(X, Y) = \left[ \inf_{\gamma \in \Gamma(X, Y)} \int_{x, y}d^{z}(x, y)d\gamma(x, y)\right]^{\frac{1}{z}} W z ( X , Y ) = [ γ ∈ Γ ( X , Y ) inf ∫ x , y d z ( x , y ) d γ ( x , y ) ] z 1
여기서 Γ ( X , Y ) \Gamma(X,Y) Γ ( X , Y ) 는 marginals X X X 와 Y Y Y 를 포함한 ( M , d ) × ( M , d ) (M,d) \times (M,d) ( M , d ) × ( M , d ) 에 대한 확률 분포들의 집합.
Γ ( X , Y ) : \Gamma(X, Y) : Γ ( X , Y ) : 두 확률 분포 X , Y X, Y X , Y 의 joint dist 들의 집합
γ \gamma γ : 그 중 하나 z z z : 지수 조정 → 다양한 방식으로 거리 조정.
= inf γ ∈ Γ ( X , Y ) E γ [ d ( X , Y ) ] = \inf_{\gamma \in \Gamma(X,Y)} \mathbb{E}^{\gamma}[d(X, Y)] = γ ∈ Γ ( X , Y ) inf E γ [ d ( X , Y ) ]
d ( X , Y ) d(X, Y) d ( X , Y ) 의 expectation 을 가장 작게 추정한 값.
explain
X ( a ) = ( 0 , Z X ( a ) ) , Y ( a ) = ( θ , Z Y ( a ) ) X(a) = (0, Z_{X}(a)),\; Y(a) = (\theta, Z_{Y}(a)) X ( a ) = ( 0 , Z X ( a ) ) , Y ( a ) = ( θ , Z Y ( a ) )
d ( X , Y ) = ( ∣ θ − 0 ∣ 2 + ∣ Z X ( a ) − Z Y ( a ) ∣ 2 ) 1 2 ≥ ∣ θ ∣ d(X, Y) = (|\theta-0|^2 + |Z_{X}(a) - Z_Y(a)|^2)^{\frac{1}{2}} \geq|\theta| d ( X , Y ) = ( ∣ θ − 0 ∣ 2 + ∣ Z X ( a ) − Z Y ( a ) ∣ 2 ) 2 1 ≥ ∣ θ ∣
i f : Z X = Z Y → d ( X , Y ) = ∣ θ ∣ {\rm if} : Z_X = Z_Y \rightarrow d(X, Y) = |\theta| i f : Z X = Z Y → d ( X , Y ) = ∣ θ ∣ → infimum..
Wasserstein metric 은 두 가지 매우 중요한 속성이 있다.
1. complete (완비성) 을 의미한다.
2. ( M , d ) (M,d) ( M , d ) 에 있는 축약은 ( P ( M , d ) , W z ) (P(M,d), W_z) ( P ( M , d ) , W z ) 에 있는 축약을 유도한다 (induces).
measure theory, and next !!
ϕ : M → M \phi : M \rightarrow M ϕ : M → M 매핑이 주어지면
M M M 에 pointwise ϕ \phi ϕ 로 적용하여 P ( M , d ) → P ( M , d ) P(M,d) \rightarrow P(M,d) P ( M , d ) → P ( M , d ) 를 구성할 수 있다.
X ∈ P ( M , d ) X \in P(M,d) X ∈ P ( M , d ) 와 X ′ : = p ( X ) X' := \mathbf{p}(X) X ′ : = p ( X ) 라 하자.
모든 특정 가능한 이벤트 E E E 에 대해서 ϕ − 1 ( E ) \phi^{-1}(E) ϕ − 1 ( E ) 에 의한 pre-image ϕ − 1 ( E ) \phi^{-1}(E) ϕ − 1 ( E ) 를 나타낸다.
그 다음 X ′ ( E ) = X ( ϕ − 1 ( E ) ) X'(E) = X(\phi^{-1}(E)) X ′ ( E ) = X ( ϕ − 1 ( E ) ) 를 갖는다.
이 형태는 많이 봤다.
Random Variable 와 Distribution, 그리고 Optimal transport . . .
transformer 기하 내용도 봐야하고, metric, loss 도 더 연구를 해야하고, entropy 개념도 정리하고, 현재 잘 나오는 SOTA 논문도 보고, 시스템, 제품 개발도 해야하는데.. 세상의 속도는 너무 빨리 앞으로 나간다. 정말 다들 너무 잘 따라간다.. ㅎㅎ 열심히 해야지!
ref