Diffusion Models
departure to latent space

learning은 two-stage로 나눌 수 있음
1) perceptual compression : high-freq details를 제거하고 semantic variation은 거의 안 배우는 구간
2) semantic compression : semantic & conceptual composition of data를 배우는 구간, 우리가 보통 생각하는 'learning'
basic idea: Let's find a perceptually equivalent,but computationally more suitable space
Latent Diffusion Models


cross-attention based conditioning의 활용
text-to-image

layout-to-image

class-conditional generation

기존 SOTA인 ADM 이겼음
Classifier-Free Diffusion Guidance를 같이 쓰면 성능이 훨씬 좋아진다
sampling beyond

256x256으로 학습시키고 그보다 더 큰 resolution으로 샘플링이 가능함
