DDPM requires many iterations
DDIM

DDPM과 같은 objective로 학습됨
기존 diffusion process가 Markovian이었던 걸 non-Markovian으로 일반화
sampling step 수를 적게 가져갈 때 DDPM보다 나은 성능을 보임
“consistency” property를 가짐
diffusion kernel들이 에 dependent하도록 length real vector 에 대한 inference distribution을 새로 정의하자
DDPM의 objective를 그대로 갖다 쓰려면 marginal 를 보장해야 함
그러면 새로운 diffusion kernel은 아래와 같이 유도됨
귀납법으로 증명 (Appendix B lemma 1)


이제 Bayes rule을 이용하면 아래와 같이 forward process를 얻을 수 있고, 모든 는 와 에 dependent 하게 됨
generative process
objective
새로운 objective는 와 를 매칭함
정의에 의하면 값에 따라 각기 다른 모델을 train시켜야 하지만, 특정 weight 조건을 만족하면 를 DDPM objective 와 같게 만들 수 있다
Theorem 1.
Proof (Appendix B)

31에서 32번 식으로 넘어가는 과정 이해 안 됨 (가 어디서 나온 건지?)
(DDPM loss) =
Settings
5.1. Sample Quality and Efficiency

CIFAR10, CelebA에서 실험, FID로 평가
timestep 수에 따른 sample quality <-> computational cost tradeoff가 있었다
같은 timestep일 때 DDIM이 성능이 더 좋았다
다만 full timestep을 이용한 경우 가 가장 좋았음
DDIM으로 10x ~ 50x speedup이 가능하다
5.2. Sample Consistency in DDIMs

DDIM의 경우 generative process가 deterministic하므로, 는 initial state 에 따라 결정된다
-> 가 fixed 되어 있으면 timestep을 달리 해도 퀄리티만 살짝 다른 같은 결과물이 나온다
alone would be an informative latent encoding of the image
5.3. Interpolation in Deterministic Generative Processes

5.2.에 이어서, 서로 다른 두 를 섞으면 결과물 끼리 적당히 interpolation된 결과물이 나온다 (semantically meaningful interpolation)
DDIM은 latent variable 단에서 high level contents를 직접 조절할 수 있다 (DDPM에서는 안 됨)
5.4. Reconstruction from Latent Space

DDIM은 particular ODE의 Euler integration이므로, 로부터 를 인코딩한 뒤 다시 로 를 복원할 수 있다
CIFAR10으로 reconstruction 실험해봤더니 잘 됐다, timestep 수가 많을 수록 error가 적었음
DDPM에서는 stochastic nature 때문에 이게 안 된다