[Method] Latent Diffusion Models

Jayce_97·2024년 12월 20일
0

[논문]LMD

목록 보기
3/6

저번 시간 Perceptual Image Compression에 이어 Latent Diffusion Models에 사용되는 Method를 알아보도록 하겠습니다.


Latent Diffusion Models

Diffusion model은 정규 분포 변수의 noise를 점진적으로 제거하여 데이터 분포 p(x)p(x)를 학습하도록 설계된 확률 모델입니다. 구체적으로는 길이가 TT로 고정된 *Markov chain(마코프 체인)의 *reverse process를 학습하는 것입니다. 이미지 합성의 경우 가장 성능이 좋은 모델들은 denoising score-matching을 미러링하는 p(x)p(x)에 대한 variational lower bound를 재가중한 변형을 사용합니다. 이러한 모델은 입력 xtx_t의 noise가 제거된 변형을 예측하도록 학습된 denoising autoencoder ϵθ(xt,t)(t=1,...,T)\epsilon_\theta(x_t,t)(t=1,...,T)의 동등하게 가중된 시퀀스로 해석할 수 있습니다.
여기서 xtx_t는 입력 xx에 noise가 추가된 버전입니다.

  • 목적 함수 단순화 공식
    LDM=Ex,ϵ N(0,1),t[ϵϵθ(xt,t)22]L_{DM} = \mathbb E_{x,\epsilon ~N(0,1),t}[||\epsilon - \epsilon_\theta(x_t, t)\|_2^2]

tt는 1,...,TT에서 uniform하게 샘플링 됩니다.
ED\mathcal{E} 와 \mathcal{D}로 학습된 perceptual compression 모델을 사용하여 Generative Modeling of Latent Representations을 통해 high-frequency(고주파)의 감지할 수 없는 디테일이 추상화되는 효율적이고 낮은 차원의 latent space에 접근 할 수 있습니다. 이 Latent space는 고차원 픽셀 space와 비교할 때 2가지 이유로 likelihood 기반 생성 모델에 더 적합합니다.
1. 데이터의 중요한 semantic bit에 집중 가능
2. 계산적으로 훨씬 더 효율적인 더 낮은 차원에서 학습 가능

이전 모델들은 압축된 discrete latent space에서 autoregressive attention 기반 transformer 모델에 의존했지만, LDM은 이미지별 inductive bias를 활용 할 수 있으며, 2D convolutional layer들로 UNet을 구성이 가능합니다. reweighted bound를 사용하여 perceptual하게 가장 관련성이 높은 비트에 목적 함수를 더 집중시키는 것도 포합됩니다.

LLDM:=EE(x),ϵ N(0,1),t[ϵϵθ(Zt,t)22]L_{LDM} := \mathbb E_{E(x),\epsilon ~ N(0,1),t}[||\epsilon - \epsilon_\theta(Z_t, t)\|_2^2]

LDM의 Backbone ϵθ(°,t)\epsilon_\theta(\degree,t)는 time-conditional Unet으로 구현됩니다. Forward process가 고정되어 있으므로 학습 중에 ZtEZ_t를 E에서 효율적으로 얻을 수 있고 P(Z)의샘플을DP(Z)의 샘플을 D에 한 번 통과시켜 이미지 Space로 디코딩할 수 있습니다.

변수 설명

  • x: 원본 데이터 (e.g. 이미지)
  • ϵ∼N(0,1): 평균이 0이고 분산이 1인 정규 분포에서 샘플링된 랜덤 노이즈
  • t: 시간 스텝으로,주어진 tt에서 데이터 xtx_t가 얼마나 "노이즈화" 되었는지 나타냄
  • xt:tx_t : t 시점에서 노이즈가 추가된 데이터.
  • ϵθ(xt,t)\epsilon_\theta(x_t,t): 모델이 예측한 노이즈
  • ϵϵθ(xt,t)22\|\epsilon - \epsilon_\theta(x_t, t)\|_2^2
  • Markov Chain
    여러 상태들 (X1,X2,...Xn)(X_1,X_2,... X_n)이 있고, XiX_i에서 XjX_j로 이동할 조건부 환률 분포 TrasitiondistributionT(XjXi)Trasition distribution T(X_j|X_i)가 주어져 있어서 매턴마다 이 확률 값에 따라 상태들 사이를 이동한 것 즉, 상태들의 방문횟수의 비율이 특정 확률분포로 수렴하게 되고 이 분포를 Stationary distribution이라합니다. 마르코프 체인은 '마르코프 성질'을 가진 '이산시간 확률과정' 입니다.
  • reverse process
    noise로부터 원래의 샘플 이미지를 생성하는 과정
profile
AI (ML/DL) 학습

0개의 댓글

관련 채용 정보