[Capstone] Diffusion model 기초

Jiwoo Jung·2025년 1월 28일

xoft.tistory.com를 참고하여 Diffusion model 이해에 필요한 기본 개념을 정리했다.

목차

Probability vs. Likelihood
MLE(Maximum Likelyhood Estimation)
Markov Process(MP)(=Markov Chain)
Baysian Rule
KL Divergence
VAE
CLIP
SDS
Diffusion

Probability vs. Likelihood

Probability

확률분포 $p(x)$ 가 고정된 상태에서 관측 사건 $x$ 가 변화할 때의 확률.

일상적으로 쓰이는 확률의 의미. "어떤 일이 일어날 가능성"

Likelihood

관측된 데이터 $x$ 가 고정된 상태에서, 이를 설명할 수 있는 확률분포 $p_θ(x)$ 가 변화할 때의 값.
주어진 데이터 ${x_1, x_2, ..., x_n}$ 가 특정 확률분포 $p_θ(x)$ 에서 생성되었을 가능성
주어진 데이터가 특정 확률분포를 따를 가능성

Likelihood가 크다는 것은, 관측된 데이터가 해당 확률분포로부터 생성되었을 가능성이 크다는 것.

관측된 데이터를 잘 설명하는 확률분포를 찾는 MLE에서 쓰인다.

이산 Likelihood

L(θ; x) = P(x | θ) = ∏_{i=1}^n p_θ(x_i)

$p_{\theta}$ : PMF(확률질량함수), $\theta$ : 확률분포, x: 관측값

연속 Likelihood

L(θ; x) = P(x | θ) = ∏_{i=1}^n f_θ(x_i)

$f_{\theta}$ : PDF(확률밀도함수)

log likelihood

log는 증가함수이므로, 최대 최소를 구할 때 log likelihood를 써도 상관없다.

ℓ(θ; x) = log L(θ; x) = ∑_{i=1}^n log p_θ(x_i)

ℓ(θ; x) = log L(θ; x) = ∑_{i=1}^n log f_θ(x_i)

Probability는 사건 x의 확률을 계산하며, Likelihood는 특정 사건이 관측되었을 때 해당 사건을 잘 설명할 수 있는 확률분포를 찾는 데 사용됨.

MLE(Maximum Likelyhood Estimation)

(gmm - em algorithm에서 봤던 개념)
관측된 데이터를 가장 잘 설명하는 확률분포의 파라미터를 추정하는 방법.

주어진 데이터 ${x₁, x₂, ..., xₙ}$ 에 대해, 확률분포 $p_θ(x)$ 의 Likelihood를 최대화하는 $θ$ 를 찾음.

\hat{\theta} = \arg\max_{\theta} \prod_{i=1}^n p_\theta(x_i) = \arg\max_{\theta} \sum_{i=1}^n \log p_\theta(x_i)

Gaussian Distribution MLE

Gaussian Distribution의 log likelihood를 각각 $μ$ , $σ$ 에 대해 미분하고, 0이 되는 지점을 찾는다.

가우시안 분포 파라미터: 평균 $μ$ , 표준편차 $σ$
가우시안 분포 확률분포함수

p(x | \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)

log likelihood $\ell(\mu, \sigma; x) = -\frac{n}{2} \log(2\pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2$

평균 $μ$ 의 MLE: 데이터의 평균

\hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i= \frac{x_1 + x_2 + \dots + x_n}{n}

표준편차 $σ$ 의 MLE: 데이터의 표준편차

\hat{\sigma} = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2}= \sqrt{\frac{(x_1 - {\mu})^2 + (x_2 - \hat{\mu})^2 + \dots + (x_n - \hat{\mu})^2}{n}}

Markov Process(MP)(=Markov Chain)

Markov Property를 갖는 discrete time stochastic process.

Markov Property: 현재 상태가 오직 바로 이전(n-1) 상태에 의해서만 결정됨.

P(X_t | X_{t-1}, X_{t-2}, \dots, X_0) = P(X_t | X_{t-1})

discrete time: 시간이 이산적으로 표현됨(t=n, n-1, n-2, …)
stochastic process: 시간에 따라 어떤 사건이 발생할 확률이 변화하는 과정; 시간에 따라 상태가 확률적으로 변화

Baysian Rule

조건부 확률을 계산하는 공식으로, 관측된 데이터 $D$ 를 기반으로 모델 $H$ 의 사후 확률을 계산함.

P(H | D) = \frac{P(D | H) P(H)}{P(D)}

$P(H|D)$ : 관측된 데이터를 기반으로 $H$ 가 참일 확률 (사후 확률).
$P(D|H)$ : $H$ 가 참일 때 데이터를 관측할 확률 (Likelihood).
$P(H)$ : 사전 확률.
$P(D)$ : 관측된 데이터를 기반으로 한 전체 확률.

KL Divergence

두 확률분포 $p$ 와 $q$ 간의 차이를 측정하는 지표.

분포 $p$ 가 $q$ 에 비해 얼마나 "다르게" 분포되어 있는지를 나타내는 척도.

정보량의 차이를 수치화하며, Loss 함수로 자주 사용됨.

Diffusion model에서 Forward process와 Reverse process의 분포 차이를 줄이는 데 활용됨.

공식

이산 확률 분포

D_{\text{KL}}(p || q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}

연속 확률 분포

D_{\text{KL}}(p || q) = \int p(x) \log \frac{p(x)}{q(x)} dx

특징

$D_{KL}(p || q) ≥ 0$ .

$D_{KL}(p || q) ≠ D_{KL}(q || p$ (거리개념이 아님).

분포 $p$ 와 $q$ 가 동일하면 $D_{KL}(p || q) = 0$ .

엔트로피

엔트로피는 확률 분포가 가지는 "불확실성"의 양을 나타내며, KL Divergence는 두 분포의 엔트로피 차이를 측정하는 방식.

D_{KL}(p \parallel q) = H(p, q) - H(p)

$H(p)$ : 분포 $p$ 의 엔트로피(정보량)
$H(p, q)$ : 분포 $p$ 와 $q$ 가 함께 발생할 때의 합동 엔트로피( $p$ 와 $q$ 가 동시에 발생할 때 얻을 수 있는 정보량)
이때 정보량이란 질문의 정보량!

VAE

Variational Auto Encoder

Autoencoder 기반의 모델로, 특정 데이터의 잠재 공간(latent space)을 확률분포로 학습.

데이터를 단일 점으로 학습하는 기존 Autoencoder와 달리, 잠재 변수를 확률분포 $z ~ p(z)$ 로 모델링.

\mathcal{L} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{\text{KL}}(q(z|x) || p(z))

첫 번째 항: reconstruction loss
두 번째 항: 잠재 분포 $q(z|x)$ 와 $p(z)$ 간의 KL Divergence.

CLIP

Contrastive Language-Image Pretraining

OpenAI에서 2021년 개발한 텍스트와 이미지를 연결하는 모델

텍스트와 이미지 데이터를 동일한 잠재 공간(shared latent space)에 매핑하여 서로 간의 관련성을 학습함.

Contrastive Learning

입력 샘플 간의 비교를 통해 학습을 하는 것

입력 쌍(positive, negative)을 비교하여 학습.

관련 있는 쌍은 가까이, 관련 없는 쌍은 멀리 배치.

SDS

Score Distillation Sampling

DreamFusion에서 Text-to-3D 모델 학습에 처음 제안된 Loss 방식.

이미지-텍스트 모델(CLIP)을 활용하여 텍스트 조건에 맞는 3D 생성 모델을 학습.

Diffusion

Forward process

데이터를 점점 노이즈로 변환하는 과정.
데이터 $x₀$ 에서 시작하여 시간 $t$ 에 따라 점진적으로 노이즈를 추가:

q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{\alpha_t} x_{t-1}, (1 - \alpha_t)I)

Reverse process

노이즈 데이터를 점진적으로 복원하는 과정.
학습 대상 분포는 $p_θ(x_{t-1} | x_t)$ .

\mathcal{L} = D_{\text{KL}}(q(x_{t-1}|x_t) || p_\theta(x_{t-1}|x_t))

Forward process에서 관찰된 데이터로 Reverse process 분포를 학습하여 MLE를 최대화.

학습 대상: $P_{\theta}(X_{t-1}|X_{t})$ ; 확률분포 $q$ 에서 관측한 값으로 확률분포 $p_\theta$ 의 likelihood를 구했을 때 MLE.

Jiwoo Jung

이전 포스트

[Spring] Spring Security 기초

다음 포스트