High-Resolution Image Synthesis with Latent Diffusion Models
pretrained auto-encoder의 latent space 적용cross-attention layer 의 도입으로 general conditioning input(텍스트/bounding box)에 대해 강력하고 유연하게 바꿀 수 있으며, 고해상도 convolution 방식이 가능해짐likelihood-based 모델을 선택함에 따라 DM은 GAN의 모델 붕괴나 학습의 불안전성을 겪지 않고 parameter sharing을 함
이미 학습된 DM의 pixel space에 대해 분석하는 것부터 시작함
Figure2는 학습된 모델의 rate distortion trade-off를 보임 : LDM은 눈에 띄지 않는 세부사항만 제거하는 온화한 압축 단계를 가지면서 효과가 좋음
학습은 2단계로 나뉨
perceptual compression stage ) : high-frequency detail을 제거하지만 semantic 은 거의 학습하지 않음 semantic compression) : 데이터의 의미론적 구성과 개념(conceptual) 구성을 학습perceptual하게 동등하면서 계산적으로 더 적합한 space 찾는 것을 목표로 하며 high-resolution 이미지를 학습함
2개의 phases로 분리
범용 encoding 단계를 한 번만 학습하면 되므로 여러 DM 학습에 재사용 가능하고 다양한 task를 탐색할 수 있음
transformer를 DM의 UNet backbone + 임의의 유형의 토큰으로 조건을 주는 아키텍처 설계
생략
perceptual compression 모델 = 이전 연구 기반 + perceptual loss + patch based adversarial objective의 조합으로 학습되는 autoencoder로 구성됨
local realism이 적용됨
주어진 RGB 이미지 에 대해 인코더 에 를 latent representation 에 넣음
디코더 는 image를 latent에서 reconstruct함
인코더는 이미지를 로 downsample하고 에 대해 로 함
latent space의 분산이 커지는 것을 막기 위해 두 가지 종류의 정규화로 실험 진행
DM이 2차원 구조로 작동하므로 상대적으로 약한 압축률을 사용하고 매우 우수한 재구성이 가능
학습된 space 의 임의의 1차원 순서에 의존해 분포를 모델링하는 기존 연구와 차별 > 의 고유 구조를 무시
본 연구의 압축은 의 디테일을 더 보존함


이하 생략