저번 시간 Perceptual Image Compression에 이어 Latent Diffusion Models에 사용되는 Method를 알아보도록 하겠습니다.
Diffusion model은 정규 분포 변수의 noise를 점진적으로 제거하여 데이터 분포 를 학습하도록 설계된 확률 모델입니다. 구체적으로는 길이가 로 고정된 *Markov chain(마코프 체인)의 *reverse process를 학습하는 것입니다. 이미지 합성의 경우 가장 성능이 좋은 모델들은 denoising score-matching을 미러링하는 에 대한 variational lower bound를 재가중한 변형을 사용합니다. 이러한 모델은 입력 의 noise가 제거된 변형을 예측하도록 학습된 denoising autoencoder 의 동등하게 가중된 시퀀스로 해석할 수 있습니다.
여기서 는 입력 에 noise가 추가된 버전입니다.
는 1,...,에서 uniform하게 샘플링 됩니다.
로 학습된 perceptual compression 모델을 사용하여 Generative Modeling of Latent Representations을 통해 high-frequency(고주파)의 감지할 수 없는 디테일이 추상화되는 효율적이고 낮은 차원의 latent space에 접근 할 수 있습니다. 이 Latent space는 고차원 픽셀 space와 비교할 때 2가지 이유로 likelihood 기반 생성 모델에 더 적합합니다.
1. 데이터의 중요한 semantic bit에 집중 가능
2. 계산적으로 훨씬 더 효율적인 더 낮은 차원에서 학습 가능
이전 모델들은 압축된 discrete latent space에서 autoregressive attention 기반 transformer 모델에 의존했지만, LDM은 이미지별 inductive bias를 활용 할 수 있으며, 2D convolutional layer들로 UNet을 구성이 가능합니다. reweighted bound를 사용하여 perceptual하게 가장 관련성이 높은 비트에 목적 함수를 더 집중시키는 것도 포합됩니다.
LDM의 Backbone 는 time-conditional Unet으로 구현됩니다. Forward process가 고정되어 있으므로 학습 중에 에서 효율적으로 얻을 수 있고 에 한 번 통과시켜 이미지 Space로 디코딩할 수 있습니다.
변수 설명
- x: 원본 데이터 (e.g. 이미지)
- ϵ∼N(0,1): 평균이 0이고 분산이 1인 정규 분포에서 샘플링된 랜덤 노이즈
- t: 시간 스텝으로,주어진 에서 데이터 가 얼마나 "노이즈화" 되었는지 나타냄
- 시점에서 노이즈가 추가된 데이터.
- : 모델이 예측한 노이즈
- Markov Chain
여러 상태들 이 있고, 에서 로 이동할 조건부 환률 분포 가 주어져 있어서 매턴마다 이 확률 값에 따라 상태들 사이를 이동한 것 즉, 상태들의 방문횟수의 비율이 특정 확률분포로 수렴하게 되고 이 분포를 Stationary distribution이라합니다. 마르코프 체인은 '마르코프 성질'을 가진 '이산시간 확률과정' 입니다.- reverse process
noise로부터 원래의 샘플 이미지를 생성하는 과정