Continuous Normalizing Flows

상솜공방·2025년 10월 24일

딥러닝

목록 보기

4/4

1. Continuous Normalizing Flows (CNF)

Continuous Normalizing Flows(CNF)는 딥러닝 기반 생성 모델, 특히 Normalizing Flows (NF) 계열에서 매우 중요하고 흥미로운 개념입니다. CNF는 $K$ 개의 이산적인 변환 $f_k$ 를 사용하는 대신, 이 변환 과정을 무한히 작은 변환의 연속으로 일반화합니다.

Discrete NF에서 변환된 $x$ 의 확률 밀도 함수는 다음과 같았습니다.

\log p_x(x) = \log p_z(z_0) - \sum_{k=1}^K \log \left| \det\left( J_{f_k}(z_{k-1}) \right) \right|

발상의 전환: 여기서 $K \to \infty$ 가 되면, 이산적인 변환 $z_k = f_k(z_{k-1})$ 은 상미분방정식(Ordinary Differential Equation, ODE) 으로 기술할 수 있습니다.
CNF의 정의: 시간 $t$ 에 따른 상태 $z(t)$ 의 변화를 신경망 $f$ 로 모델링합니다. (이제부터 $z_t$ 를 $z(t)$ 의 함수 꼴로 표기하겠습니다.) 이 신경망 $f$ 는 $z(t)$ 가 시간 $t$ 에서 어떻게 변해야 하는지(즉, 속도 $\frac{dz}{dt}$ )를 정의하는 벡터 필드(vector field) 역할을 합니다.
$\frac{dz(t)}{dt} = f(z(t), t, \theta)$
여기서 $\theta$ 는 신경망 $f$ 의 파라미터입니다.
변환 과정:
- 샘플링 (Sampling, $z \to x$ ): $t=0$ 에서의 초기값 $z(0) \sim p_z$ 를 위 ODE에 넣고 $t=0$ 부터 $t=T$ 까지 순방향으로 수치 적분(ODE 풀이)합니다. 그 결과가 $x = z(T)$ 입니다. $x = z(T) = z(0) + \int_{0}^{T} f(z(t), t, \theta) dt$
- 밀도 추정 (Density, $x \to z$ ): $t=T$ 에서의 값 $x = z(T)$ 를 ODE에 넣고 $t=T$ 부터 $t=0$ 까지 역방향으로 수치 적분합니다. 그 결과가 $z(0)$ 입니다. $z(0) = z(T) - \int_{0}^{T} f(z(t), t, \theta) dt = x + \int_{T}^{0} f(z(t), t, \theta) dt$
가장 큰 장점 (자유로운 아키텍처): Discrete NF에선 $f$ 의 역함수가 존재했어야 하나, CNF에선 그럴 필요가 없습니다! ODE는 $f$ 가 기본적인 조건(예: Lipschitz 연속)만 만족하면 해가 유일하게 존재하며, 시간을 거꾸로 돌리는 것만으로 역변환( $x \to z(0)$ )이 보장됩니다. 따라서 $f$ 에 어떤 신경망 아키텍처(ResNet, MLP 등)든 자유롭게 사용할 수 있습니다.

1.1. CNF의 수식 유도

상미분방정식(ODE)이란?

상미분방정식(Ordinary Differential Equation, ODE) 은 한 개의 독립 변수(보통 '시간' $t$ )에 대한 함수( $z(t)$ )와 그 함수의 도함수( $\frac{dz}{dt}$ ) 사이의 관계를 기술하는 방정식입니다.

핵심 아이디어: 시스템의 현재 상태( $z(t)$ )가 주어졌을 때, 다음 순간의 변화율( $\frac{dz}{dt}$ )이 얼마인지 알려주는 규칙(rule)입니다.
예시: 가장 간단한 예로 $\frac{dz}{dt} = z$ 가 있습니다. 이는 "함수 $z$ 의 변화율이 현재 $z$ 의 값과 같다"는 뜻이며, 이 규칙을 따르는 함수는 $z(t) = C e^t$ (지수 함수) 형태가 됩니다.
물리적 비유: 댐에서 물이 흐를 때, 각 위치( $z$ )에서 물의 속도와 방향( $\frac{dz}{dt}$ )을 정의하는 유속 지도(vector field)와 같습니다.

$K \to \infty$ 가 ODE가 되는 이유

이산적인(discrete) 변환 $z_k = f_k(z_{k-1})$ 가 어떻게 연속적인(continuous) ODE가 되는지 이해하는 것이 핵심입니다.

Discrete NF, 특히 ResNet과 유사한 잔차 연결(residual connection) 형태의 변환을 생각해 보면 이해하기 쉽습니다.

Discrete 변환: $z_k$ 가 $z_{k-1}$ 에서 "작은 변화" $g_k(z_{k-1})$ 만큼 바뀐다고 가정해 봅시다. (여기서 $f_k(z) = z + g_k(z)$ 입니다.)
$z_k = z_{k-1} + g_k(z_{k-1})$
시간 개념 도입: $K$ 개의 변환을 $t=0$ 부터 $t=T$ 까지의 시간 동안 일어나는 일이라고 생각해 봅시다. 총 시간 $T$ 를 $K$ 개의 작은 시간 단계( $\Delta t = T/K$ )로 나눕니다.
- $z_0$ 는 $z(t=0)$
- $z_1$ 은 $z(t=\Delta t)$
- $z_k$ 는 $z(t=k \cdot \Delta t)$
식 변형: 위 식에서 $g_k(z_{k-1})$ 를 " $\Delta t$ 시간 동안의 변화량"으로 만들기 위해 $\Delta t$ 를 곱한 형태로 모델링합니다. 즉, $f$ 를 '속도'로 정의합니다.
$z(t_k) = z(t_{k-1}) + f(z(t_{k-1}), t_{k-1}) \cdot \Delta t$
( $g_k$ 가 $f \cdot \Delta t$ 가 된 것입니다.)
도함수의 정의: 위 식을 $\Delta t$ 로 나누고 $z(t_k) - z(t_{k-1})$ 를 $\Delta z$ 로 표기하면,
$\frac{z(t_k) - z(t_{k-1})}{\Delta t} = \frac{\Delta z}{\Delta t} = f(z(t_{k-1}), t_{k-1})$
이것은 도함수의 근사식(finite difference) 입니다.
$K \to \infty$ 극한: 이제 $K \to \infty$ (변환 횟수를 무한대로)로 보냅니다.

$\lim_{K \to \infty} \underbrace{\left( \frac{z(t_k) - z(t_{k-1})}{\Delta t} \right)}_{\text{LHS}} = \lim_{K \to \infty} \underbrace{\left( f(z(t_{k-1}), t_{k-1}) \right)}_{\text{RHS}}$

이것을 좌변(LHS)과 우변(RHS)으로 나누어 살펴보자.

좌변 (LHS): $\lim \frac{\Delta z}{\Delta t} \to \frac{dz(t)}{dt}$
- 이것은 님이 이미 이해한 부분이다.
- $K \to \infty$ 가 되면 $\Delta t \to 0$ 이 된다.
- $t_k$ 와 $t_{k-1}$ 사이의 간격이 무한히 좁아지므로, 이 구간에서의 평균 변화율은 $t$ 라는 특정 시점에서의 순간 변화율(도함수) $\frac{dz(t)}{dt}$ 로 정의된다.
우변 (RHS): $\lim f(z(t_{k-1}), t_{k-1}) \to f(z(t), t)$
- $t_{k-1} \to t$ : $K \to \infty$ 극한에서, $t_k$ 와 $t_{k-1}$ 은 모두 동일한 특정 시점 $t$ 로 수렴한다. (간격 $\Delta t$ 가 0이 되므로) 따라서 이산적인 시간 인덱스 $t_{k-1}$ 은 연속적인 시간 변수 $t$ 가 된다.
- $z(t_{k-1}) \to z(t)$ : $t_{k-1}$ 이 $t$ 로 수렴하므로, $t_{k-1}$ 에서의 상태 $z(t_{k-1})$ 역시 $t$ 에서의 상태 $z(t)$ 로 수렴한다. (함수 $z$ 가 연속적이라고 가정)
- $f(\cdot) \to f(\cdot)$ : 함수 $f$ 자체(신경망)는 $K$ 가 변한다고 해서 바뀌지 않는다. $f$ 는 우리가 정의한 규칙일 뿐이다. 이 $f$ 가 연속 함수라고 가정하면 (ODE가 잘 정의되기 위한 기본 조건), 입력값이 극한으로 수렴할 때 함숫값도 극한의 함숫값으로 수렴한다.
  - 즉, $\lim f(z(t_{k-1}), t_{k-1}) = f(\lim z(t_{k-1}), \lim t_{k-1}) = f(z(t), t)$ 이다.
결론적으로, 좌변과 우변을 합치면 다음과 같다.
1. 좌변은 $t$ 라는 시점에서의 순간 속도( $\frac{dz}{dt}$ )가 되었다.
2. 우변은 $t$ 라는 시점의 상태( $z(t)$ )와 시각( $t$ )을 입력받아 속도를 계산하는 함수( $f$ )가 되었다.
따라서 이산적인(discrete) 관계식:

" $t_{k-1}$ 부터 $t_k$ 까지의 평균 속도( $\frac{\Delta z}{\Delta t}$ )는 $t_{k-1}$ 에서의 상태 $z(t_{k-1})$ 로 계산한 속도 $f(\cdot)$ 와 같다."

이것이 $K \to \infty$ 극한을 만나 연속적인(continuous) 관계식:

" $t$ 시점에서의 순간 속도( $\frac{dz}{dt}$ )는 $t$ 시점에서의 상태 $z(t)$ 로 계산한 속도 $f(z(t), t)$ 와 같다."

라는 상미분방정식(ODE) 으로 일반화되는 것이다. (여기서 $f$ 는 학습 가능한 파라미터 $\theta$ 를 가지므로 $f(z(t), t, \theta)$ 로 $\theta$ 를 추가하여 표기하기로 한다.)

1.2. $\frac{dz(t)}{dt} = f(z(t), t, \theta)$ 의 의미

이제 CNF 모델의 핵심적인 정의(definition) 로서 유도된 위 수식을 이해해보자.

$\frac{dz(t)}{dt}$ : $t$ 라는 가상의 '시간'이 흐름에 따라 $z$ 가 얼마나 빠르고 어느 방향으로 변하는지 나타내는 순간 속도(velocity) 벡터입니다.
$f(z(t), t, \theta)$ : 이 속도를 계산해내는 함수, 즉 벡터 필드(vector field) 입니다. 이 함수 $f$ 는 신경망으로 구현되며 $\theta$ 는 이 신경망의 학습 가능한 파라미터입니다.

이 방정식의 의미는 다음과 같습니다.

"어떤 데이터 포인트 $z$ 가 $t$ 라는 시점에 특정 위치 $z(t)$ 에 있을 때, 이 $z$ 가 다음 순간( $t+dt$ )에 어디로 얼마나 빠르게 움직여야 하는지( $\frac{dz}{dt}$ )는 신경망 $f$ 가 결정한다."

그리고 신경망 $f$ 의 입력과 역할은 다음과 같습니다.
1. $z(t)$ (현재 위치): 속도는 현재 위치에 따라 달라야 합니다. (예: 강물의 유속은 강둑 근처와 중앙이 다릅니다.)
2. $t$ (현재 시간): 벡터 필드(유속) 자체가 시간에 따라 변할 수 있습니다. (예: 밀물/썰물에 따라 강물의 흐름이 바뀔 수 있습니다.) 이는 모델의 표현력을 크게 높여줍니다.
3. $\theta$ (파라미터): 우리가 '학습'하는 대상입니다.

결론: 우리는 $z$ 가 $p_z$ (단순한 데이터 분포)에서 $p_x$ (복잡한 데이터 분포)로 흘러가는 가장 그럴듯한 '흐름' 또는 '경로' 를 만들 수 있는 최적의 벡터 필드 $f$ 를 딥러닝을 통해 학습하는 것입니다.

1.3. 샘플링(Sampling)과 밀도 추정(Density)의 수식 유도

이 두 과정은 모두 미적분학의 기본 정리(Fundamental Theorem of Calculus) 로부터 직접 유도됩니다.

핵심 방정식은 $\frac{dz(t)}{dt} = f(z(t), t, \theta)$ 입니다.

이 방정식의 양변을 $t$ 에 대해 $t_a$ 부터 $t_b$ 까지 적분해 봅시다.

\int_{t_a}^{t_b} \frac{dz(t)}{dt} dt = \int_{t_a}^{t_b} f(z(t), t, \theta) dt

미적분학의 기본 정리에 의해, 도함수( $\frac{dz}{dt}$ )를 적분하면 원시 함수의 차이( $z(t_b) - z(t_a)$ )가 됩니다.

z(t_b) - z(t_a) = \int_{t_a}^{t_b} f(z(t), t, \theta) dt

이것이 CNF의 모든 변환을 설명하는 일반 해(General Solution) 입니다. 이제 이 식을 두 가지 상황에 적용해 봅시다.

1.3.1. 순방향 샘플링 (Sampling, $z \to x$ ) ➡️

목표: 간단한 분포 $p_z$ 에서 뽑은 $z(0)$ (초기 상태)로부터 실제 데이터 $x = z(T)$ (최종 상태)를 생성합니다.
과정: 시간을 $t=0$ 에서 $t=T$ 까지 순방향으로 흐르게 합니다.
유도:
1. 일반 해에서 $t_a = 0$ , $t_b = T$ 로 설정합니다.
2. $z(T) - z(0) = \int_{0}^{T} f(z(t), t, \theta) dt$
3. $z(0)$ 를 우변으로 넘기면, $z(T)$ 를 얻는 식이 나옵니다.
4. $x = z(T)$ 이므로, 다음과 같이 정리됩니다.
  $x = z(T) = z(0) + \int_{0}^{T} f(z(t), t, \theta) dt$
- 의미: $t=0$ 일 때의 초기값 $z(0)$ 에, $0$ 초부터 $T$ 초까지 신경망 $f$ 가 계산해준 모든 '순간적인 변화(속도)'를 전부 더하면( $\int_{0}^{T}$ ) 최종 위치 $x=z(T)$ 를 알 수 있다는 뜻입니다. 이 적분은 실제로 ODE 솔버라는 수치해석 기법으로 풀게 됩니다.

1.3.2. 역방향 밀도 추정 (Density, $x \to z$ ) ⬅️

목표: 주어진 데이터 $x = z(T)$ (최종 상태)가 어떤 $z(0)$ (초기 상태)로부터 왔는지 역추적합니다. (이 $z(0)$ 를 알아야 $\log p_z(z(0))$ 값을 계산할 수 있습니다.)
과정: 시간을 $t=T$ 에서 $t=0$ 까지 역방향으로 흐르게 합니다.
유도:
1. 일반 해에서 $t_a = T$ , $t_b = 0$ 로 설정합니다. (시작이 $T$ , 끝이 $0$ )
2. $z(0) - z(T) = \int_{T}^{0} f(z(t), t, \theta) dt$
3. $z(T)$ 를 우변으로 넘기면, $z(0)$ 를 얻는 식이 나옵니다.
4. $x = z(T)$ 이므로, 다음과 같이 정리됩니다.
  $z(0) = z(T) + \int_{T}^{0} f(z(t), t, \theta) dt = x + \int_{T}^{0} f(z(t), t, \theta) dt$
- 의미: $t=T$ 일 때의 값 $x=z(T)$ 에서 출발하여, 시간을 거꾸로( $\int_{T}^{0}$ ) 흐르게 하면서 신경망 $f$ 가 알려주는 변화를 (거꾸로) 더해가면, $t=0$ 일 때의 초기 위치 $z(0)$ 를 복원할 수 있다는 뜻입니다.
- 핵심 장점: $f$ 의 역함수 $f^{-1}$ 를 따로 구할 필요 없이, 동일한 $f$ 를 사용하되 ODE 솔버를 반대 방향(T에서 0으로) 으로 작동시키기만 하면 역변환이 자동으로 계산됩니다. 이것이 CNF가 아키텍처에 제약이 없는 가장 큰 이유입니다.

2. CNF의 확률 변수 변환

Discrete NF의 로그-가능도(log-likelihood) 공식은 다음과 같았다.

\log p_x(x) = \log p_z(z_0) - \sum_{k=1}^K \log \left| \det\left( J_{f_k}(z_{k-1}) \right) \right|

여기서 첫 번째 항 $\log p_z(z_0)$ 의 $z_0$ 를 CNF에서 $z(0)$ 로 구하는 방법은 위에서 다루었다.

z(0) = x + \int_{T}^{0} f(z(t), t, \theta) dt

이제 두 번째 항, 즉 야코비안 행렬식의 로그 값 합계(sum) 가 $K \to \infty$ 극한에서 어떻게 적분(integral) 으로 변하는지 유도해 보겠다.

결론부터 말하자면, 우리가 보여야 할 것은 다음과 같다.

\sum_{k=1}^K \log \left| \det\left( J_{f_k}(z_{k-1}) \right) \right| \quad \xrightarrow{K \to \infty} \quad \int_{0}^{T} \text{Tr}\left( \frac{\partial f(z(t), t, \theta)}{\partial z(t)} \right) dt

이 유도는 몇 가지 핵심적인 수학적 근사 단계를 거친다.

2.1. 로그-가능도 변화율 $\frac{dL}{dt}$ 정의하기

전체 로그-가능도의 변화량(두 번째 항)을 시간 $t$ 에 대한 함수 $L(t)$ 라고 생각하자. $L(T)$ 가 우리가 구하려는 총 변화량이다.

미적분학의 기본 정리에 의해, $t=0$ 부터 $t=T$ 까지의 총변화량 $L(T)$ 는 $L(t)$ 의 순간 변화율(도함수) $\frac{dL}{dt}$ 을 $0$ 부터 $T$ 까지 적분한 것과 같다.

L(T) = \int_0^T \frac{dL(t)}{dt} dt

따라서 우리의 목표는 $L(t)$ 의 순간 변화율 $\frac{dL}{dt}$ 을 찾는 것이다. $\frac{dL}{dt}$ 은 $t$ 시점에서 $\Delta t$ 라는 매우 짧은 시간 동안의 변화량을 $\Delta t$ 로 나눈 극한값이다.

\frac{dL(t)}{dt} = \lim_{\Delta t \to 0} \frac{L(t+\Delta t) - L(t)}{\Delta t}

여기서 $\Delta L = L(t+\Delta t) - L(t)$ 는 Discrete NF의 단일 스텝(single step) $k$ 에서의 로그-행렬식 값, 즉 $\log |\det(J_{f_k})|$ 와 같다.
(이제부터 $\log |\det\left( J_{f_k}(z_{k-1}) \right)|$ 를 $\log |\det(J_{f_k})|$ 로 줄여 부르기로 한다.)

따라서 우리는 $\frac{dL}{dt} = \lim_{\Delta t \to 0} \frac{\Delta L}{\Delta t} = \lim_{\Delta t \to 0} \frac{\log |\det(J_{f_k})|}{\Delta t}$ 를 계산해야 한다.

2.2. 단일 스텝( $f_k$ )의 야코비안 $J_{f_k}$

$K \to \infty$ 일 때, $k$ 번째 변환 $f_k$ 는 다음과 같이 근사된다. (이전 질문에서 유도)
$z_k = z(t+\Delta t)$ 이고 $z_{k-1} = z(t)$ 이다.

z(t+\Delta t) \approx z(t) + f(z(t), t) \cdot \Delta t

이제 이 단일 스텝 변환의 야코비안 $J_{f_k}$ 를 $z(t)$ 에 대해 계산해 보자.

J_{f_k} = \frac{\partial z(t+\Delta t)}{\partial z(t)} = \frac{\partial}{\partial z(t)} \left( z(t) + f(z(t), t) \cdot \Delta t \right)

$z(t)$ 를 $z(t)$ 로 미분하면 항등 행렬 $I$ 가 되고, $f(\cdot) \cdot \Delta t$ 항은 $f$ 의 야코비안 $\frac{\partial f}{\partial z(t)}$ 에 $\Delta t$ 가 곱해진 형태가 된다.

J_{f_k} = I + \frac{\partial f(z(t), t)}{\partial z(t)} \cdot \Delta t

(여기서 $\frac{\partial f(z(t), t)}{\partial z(t)}$ 를 $J_f$ 라고 줄여서 부르겠다.)

J_{f_k} = I + J_f \cdot \Delta t

2.3. 두 가지 핵심 근사

이제 우리가 구해야 할 $\log |\det(J_{f_k})|$ 에 위 식을 대입한다.

\log \left| \det\left( I + J_f \cdot \Delta t \right) \right|

$\Delta t$ 는 $0$ 에 매우 가까운 작은 값이므로, 두 가지 근사를 사용할 수 있다.

근사 1: 야코비의 공식 (Jacobi's Formula)
행렬 $A$ 와 매우 작은 스칼라 $\epsilon$ 에 대해, 항등 행렬 $I$ 에 가까운 행렬의 행렬식(determinant)은 다음과 같이 근사된다.

\det(I + \epsilon A) \approx 1 + \epsilon \cdot \text{Tr}(A)

여기서 $\text{Tr}(A)$ 는 행렬 $A$ 의 대각합(Trace) 이다.
우리의 경우 $\epsilon = \Delta t$ 이고 $A = J_f$ 이다.

\det(J_{f_k}) = \det(I + J_f \cdot \Delta t) \approx 1 + \text{Tr}(J_f) \cdot \Delta t

근사 2: 로그의 테일러 근사
$x$ 가 $0$ 에 매우 가까울 때, $\log(1+x)$ 는 다음과 같이 근사된다.

\log(1+x) \approx x

우리의 경우 $x = \text{Tr}(J_f) \cdot \Delta t$ 이다. $\Delta t \to 0$ 이므로 이 값은 $0$ 에 매우 가깝다.
(또한 $\det(J_{f_k}) \approx 1$ 이므로 양수라서 절대값 $|\cdot|$ 기호는 생략할 수 있다.)

\log(\det(J_{f_k})) \approx \log(1 + \text{Tr}(J_f) \cdot \Delta t) \approx \text{Tr}(J_f) \cdot \Delta t

이것이 바로 $\Delta t$ 시간 동안의 로그-가능도 변화량이다.

2.4. 순간 변화율 $\frac{dL}{dt}$ 계산 및 적분

이제 1번에서 정의한 순간 변화율 $\frac{dL}{dt}$ 을 계산할 수 있다.

\frac{dL(t)}{dt} = \lim_{\Delta t \to 0} \frac{\log |\det(J_{f_k})|}{\Delta t}

위에서 구한 근사식을 대입하면,

\frac{dL(t)}{dt} = \lim_{\Delta t \to 0} \frac{\text{Tr}(J_f) \cdot \Delta t}{\Delta t} = \text{Tr}(J_f)

$J_f$ 의 원래 표기(파라미터 $\theta$ 포함)를 다시 사용하면, $t$ 시점에서의 순간 변화율은 $f$ 의 야코비안의 대각합(Trace)이 된다.

\frac{dL(t)}{dt} = \text{Tr}\left( \frac{\partial f(z(t), t, \theta)}{\partial z(t)} \right)

$K \to \infty$ 일 때, 이산적인 합 $\sum_{k=1}^K$ 은 이 순간 변화율을 $t=0$ 부터 $t=T$ 까지 연속적으로 더하는 적분 $\int_0^T dt$ 로 수렴한다.

\lim_{K \to \infty} \sum_{k=1}^K \log \left| \det\left( J_{f_k} \right) \right| = \int_{0}^{T} \frac{dL(t)}{dt} dt = \int_{0}^{T} \text{Tr}\left( \frac{\partial f(z(t), t, \theta)}{\partial z(t)} \right) dt

2.5. CNF 로그-가능도 공식 완성

이제 Discrete NF 공식의 각 항을 우리가 유도한 CNF 버전으로 대체한다.

$z_0$ $\longrightarrow$ $z(0)$ (ODE 역방향 적분으로 계산)
$\sum_{k=1}^K \log |\det(J_{f_k})|$ $\longrightarrow$ $\int_{0}^{T} \text{Tr}\left( \frac{\partial f}{\partial z(t)} \right) dt$

이 두 결과를 원래 식에 대입하면, CNF의 최종 로그-가능도 공식이 완성된다.

\log p_x(x) = \log p_z(z(0)) - \int_{0}^{T} \text{Tr}\left( \frac{\partial f(z(t), t, \theta)}{\partial z(t)} \right) dt

이를 Discrete NF의 로그-가능도 공식과 비교해보자.

\log p_x(x) = \log p_z(z_0) - \sum_{k=1}^K \log \left| \det\left( J_{f_k}(z_{k-1}) \right) \right|

상솜공방

상어 인형을 좋아하는 사람

이전 포스트

Continuous Normalizing Flows

딥러닝

1. Continuous Normalizing Flows (CNF)

1.1. CNF의 수식 유도

상미분방정식(ODE)이란?

$K \to \infty$ 가 ODE가 되는 이유

좌변 (LHS): $\lim \frac{\Delta z}{\Delta t} \to \frac{dz(t)}{dt}$

우변 (RHS): $\lim f(z(t_{k-1}), t_{k-1}) \to f(z(t), t)$

1.2. $\frac{dz(t)}{dt} = f(z(t), t, \theta)$ 의 의미

1.3. 샘플링(Sampling)과 밀도 추정(Density)의 수식 유도

1.3.1. 순방향 샘플링 (Sampling, $z \to x$ ) ➡️

1.3.2. 역방향 밀도 추정 (Density, $x \to z$ ) ⬅️

2. CNF의 확률 변수 변환

2.1. 로그-가능도 변화율 $\frac{dL}{dt}$ 정의하기

2.2. 단일 스텝( $f_k$ )의 야코비안 $J_{f_k}$

2.3. 두 가지 핵심 근사

2.4. 순간 변화율 $\frac{dL}{dt}$ 계산 및 적분

2.5. CNF 로그-가능도 공식 완성

Discrete Normalizing Flows

0개의 댓글

Continuous Normalizing Flows

딥러닝

1. Continuous Normalizing Flows (CNF)

1.1. CNF의 수식 유도

상미분방정식(ODE)이란?

K→∞K \to \inftyK→∞가 ODE가 되는 이유

좌변 (LHS): lim⁡ΔzΔt→dz(t)dt\lim \frac{\Delta z}{\Delta t} \to \frac{dz(t)}{dt}limΔtΔz​→dtdz(t)​

우변 (RHS): lim⁡f(z(tk−1),tk−1)→f(z(t),t)\lim f(z(t_{k-1}), t_{k-1}) \to f(z(t), t)limf(z(tk−1​),tk−1​)→f(z(t),t)

1.2. dz(t)dt=f(z(t),t,θ)\frac{dz(t)}{dt} = f(z(t), t, \theta)dtdz(t)​=f(z(t),t,θ)의 의미

1.3. 샘플링(Sampling)과 밀도 추정(Density)의 수식 유도

1.3.1. 순방향 샘플링 (Sampling, z→xz \to xz→x) ➡️

1.3.2. 역방향 밀도 추정 (Density, x→zx \to zx→z) ⬅️

2. CNF의 확률 변수 변환

2.1. 로그-가능도 변화율 dLdt\frac{dL}{dt}dtdL​ 정의하기

2.2. 단일 스텝(fkf_kfk​)의 야코비안 JfkJ_{f_k}Jfk​​

2.3. 두 가지 핵심 근사

2.4. 순간 변화율 dLdt\frac{dL}{dt}dtdL​ 계산 및 적분

2.5. CNF 로그-가능도 공식 완성

Discrete Normalizing Flows

0개의 댓글

$K \to \infty$ 가 ODE가 되는 이유

좌변 (LHS): $\lim \frac{\Delta z}{\Delta t} \to \frac{dz(t)}{dt}$

우변 (RHS): $\lim f(z(t_{k-1}), t_{k-1}) \to f(z(t), t)$

1.2. $\frac{dz(t)}{dt} = f(z(t), t, \theta)$ 의 의미

1.3.1. 순방향 샘플링 (Sampling, $z \to x$ ) ➡️

1.3.2. 역방향 밀도 추정 (Density, $x \to z$ ) ⬅️

2.1. 로그-가능도 변화율 $\frac{dL}{dt}$ 정의하기

2.2. 단일 스텝( $f_k$ )의 야코비안 $J_{f_k}$

2.4. 순간 변화율 $\frac{dL}{dt}$ 계산 및 적분