
Paper: High-Resolution Image Synthesis with Latent Diffusion Models
최근 이미지 생성 분야 빠르게 발전 중.
특히 복잡한 자연 이미지 -> 고해상도로 생성하는 작업은 연산 비용이 매우 큼.
기존 방식은 다음 두 가지로 나뉨.
최근에는 Diffusion Model이 이미지 생성의 새로운 대안으로 부상 중.
확률적 노이즈 제거 과정을 기반으로 하며, 다양한 조건부/비조건부 생성 작업에서 안정적인 성능을 보임.
특히, GAN 대비 학습이 안정적이고, AR 모델 대비 파라미터 수가 적음.
다만, 기존 diffusion 모델은 픽셀 공간에서 직접 동작
-> 학습과 추론 비용이 매우 큼.
=> diffusion 모델은 자원 접근성이 제한되고, 실제 활용도 어렵다는 문제가 있음.
=> 학습과 추론에서 연산량을 줄이면서도 성능을 유지할 수 있는 구조가 필요함.
본 논문은 diffusion 모델을 latent 공간에서 학습하도록 구조를 바꿈.
기존 diffusion 모델 학습 과정을 분석해보면, 두 단계로 나눌 수 있음.
이 구조를 바탕으로, 이미지와 지각적으로 동등하지만 연산적으로 더 효율적인 latent space를 학습하고, 이 공간에서 diffusion을 수행함.
이 방식을 Latent Diffusion Models (LDM)라고 정의함.
Autoencoder로 latent space를 먼저 학습하고, 이후 diffusion 모델은 이 latent 공간에서만 학습하면 됨.
Autoencoder는 재사용 가능하기 때문에 여러 생성 작업에 쉽게 적용 가능.
(ex. 텍스트 조건 생성, 이미지 조건 생성 등.)

이미지는 고차원 데이터이기 때문에 생성 모델 입장에서 다루기 까다로움.
최근에는 Diffusion Probabilistic Model이 등장하여 밀도 추정, 샘플 품질 측면에서 모두 SOTA 달성.
특히 UNet 기반 구조를 사용했을 때 이미지 데이터에 대한 inductive bias와 잘 맞음.
재구성 기반 loss를 적절히 리웨이팅하면, DM은 일종의 손실 압축기 역할을 하며 품질/압축 trade-off 조정 가능.
단점: 여전히 픽셀 공간에서 동작하기 때문에 연산 비용이 큼.
본 논문에서 제안하는 Latent Diffusion Model (LDM) 은 이 문제를 해결하기 위해 latent space에서 diffusion을 수행함. 연산량이 크게 줄고, 품질 손실도 거의 없음.
고해상도 생성을 위해 두 단계로 분리하는 접근이 많이 제안됨.
단점: latent를 너무 많이 압축해야 AR 학습이 가능하다는 점. 이로 인해 복원 품질 저하 or 파라미터 수 폭증 문제가 생김.
LDM은 convolutional backbone을 사용하여 더 높은 해상도의 latent도 효율적으로 다룰 수 있음. 따라서 압축률을 자유롭게 조절하면서도 높은 복원 품질 확보 가능.
기존 diffusion model
: 고해상도 이미지를 생성할 때, perceptually 중요하지 않은 정보를 무시할 수 있음에도 불구하고 픽셀 공간에서의 연산 자체가 매우 고비용임.
특히 학습과 추론 모두에서 수많은 반복 연산과 gradient 계산이 필요함.
본 논문에서는 압축 단계와 생성 단계를 분리함.
- Autoencoder를 먼저 학습시켜, 이미지와 지각적으로 유사하지만 연산량이 훨씬 적은 latent 공간을 정의함.
- 이후 Diffusion Model은 이 latent 공간에서만 학습 및 샘플링을 수행함.
- 고차원 픽셀 공간이 아닌, 저차원 latent 공간에서 연산을 수행하기 때문에 훈련과 샘플링 속도가 빨라짐.
- UNet 구조의 inductive bias 덕분에 spatial 구조가 있는 데이터에 대해 효과적으로 학습 가능함. 따라서 VQGAN처럼 품질 손해 감수하면서 심하게 압축할 필요 없음.
고품질 이미지를 효율적으로 생성하기 위해, 먼저 이미지 자체를 지각적으로 압축(perceptual compression) 하는 autoencoder를 학습함.

latent 공간이 고분산(high variance)이 되는 것을 방지하기 위해.
두 방식 모두 latent 공간의 안정성과 표현력 향상을 목표로 함.
LDM은 2D 구조를 유지한 latent 공간을 그대로 사용함.
=> 약한 압축률로도 높은 재구성 성능 확보 가능.
Diffusion Model
: 원래 고차원 픽셀 공간에서 데이터를 점점 노이즈화한 후, 이를 역방향으로 복원하는 과정을 학습하는 방식.
= 고정된 Markov Chain의 역과정을 모델링하는 것과 동일.
노이즈가 추가된 이미지로부터 원래 노이즈 ϵ을 예측하도록 학습하는 것이 목표

xt: 원본 이미지에 시간 t만큼 노이즈 추가한 것
ϵθ: 노이즈 예측 모델
autoencoder로 압축한 latent 공간 z=E(x)에서 수행.

기존
: transformer 기반 autoregressive 모델로 discrete latent 공간 학습
:연산량 많고 spatial 구조 무시함
LDM
: UNet을 그대로 활용
: 2D convolution 기반 inductive bias를 유지함
공간 구조 보존 + 저차원 학습 가능 + 고해상도 생성에 유리
기존 diffusion model도 조건부 생성(p(z|y)) 학습이 가능함.
다만, 지금까지는 클래스 레이블이나 블러 처리된 입력 이미지 같은 단순한 조건만 사용하는 경우가 대부분이었음.
다양한 조건(텍스트, 레이아웃, 세그멘테이션 맵 등)에 대해 더 유연한 조건부 생성을 가능하게 하기 위해 cross-attention 기반 조건부 LDM 구조를 제안함.


결과적으로... 조건 y가 diffusion 과정의 중간에 주입되어 이미지 생성 흐름을 유도하게 됨

학습 시 ϵθ와 τθ 동시에 최적화
이럴 경우,

LDM
: pixel 공간에서 직접 학습하는 기존 diffusion model에 비해 학습 및 추론 속도 모두에서 효율적
특히 VQ-regularized latent space에서 학습한 LDM
: autoencoder 복원 성능은 약간 떨어지지만 샘플 품질은 더 높게 나오는 경우도 있음
LDM의 downsampling factor f (이미지를 latent로 압축할 때의 비율)가 성능에 어떤 영향을 미치는지 분석한 실험

결론적으로,
CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms에서 256×256 해상도 이미지에 대해 Unconditional 이미지 생성 성능 평가하는 실험.

결론적으로,
CelebA-HQ에서 FID 5.11 기록 → 기존 likelihood 기반 모델과 GAN 모두보다 우수
LDM은 적은 자원으로도 기존 GAN 및 diffusion 모델보다 더 나은 품질의 샘플 생성이 가능, 구현·학습 구조도 단순!
Cross-Attention 기반 조건 입력을 통해 기존 diffusion 모델에서 다루지 못한 다양한 조건 입력 가능하게 함.
텍스트 조건 기반 이미지 생성 (Text-to-Image)

OpenImages, COCO 데이터셋 기반으로 semantic layout → image 변환 실험도 수행

결론적으로,
성능은 향상되면서도 계산량과 파라미터 수는 현저히 적음
조건 정보(ex. semantic map, 텍스트 등)를 공간 정렬된 형태(spatially aligned)로latent input과 concatenate하여 입력하면,
LDM: 범용 image-to-image translation 모델로 사용 가능

256^2 해상도로 학습된 LDM도 고해상도(512×1024) 이미지 생성 가능함
특히 semantic map 기반 조건부 landscape 이미지 합성과 같은 공간 조건(spatial conditioning) 태스크에서 일반화 능력이 뛰어남
낮은 해상도 이미지를 고해상도로 복원하는 Super-Resolution 작업에 LDM을 적용함
조건 입력 y = 저해상도 이미지
-> UNet 입력과 concatenate해서 조건부 학습 진행

두 모델이 서로 다른 장점을 가지고 있음. LDM은 질감 위주, SR3는 구조적 일관성 위주.
LDM
: 고품질 super-resolution 가능.
기존 SR3보다 FID 기준 우수, 사람 평가에서도 높은 선호도를 보임.
고정된 degradation뿐 아니라 일반화 가능한 모델도 제시함
Inpainting: 이미지에서 마스킹된 영역(손상 or 제거 대상)을 자연스럽게 복원하는 작업
범용 conditional LDM 접근이 이러한 특화 모델 대비 얼마나 효과적인지 실험


다른 inpainting 방식들과 비교한 결과(Lama 등), attention을 적용한 LDM이 FID 기준 더 나은 이미지 품질 보여줌.
글고LPIPS는 LDM이 Lama보다 약간 높음.
이유는 Lama가 단일 결과만 생성해 평균적인 복원 경향이 있는 반면, LDM은 다양한 결과를 생성하기 때문이라 설명.
이미지 생성 모델이라는 것은 양면성 존재.
반면,
Latent Diffusion Model(LDM)은 고품질을 유지하면서도 diffusion 모델의 학습 및 샘플링 효율을 크게 개선하는 간단하고 효과적인 방법!
제안한 cross-attention 기반 조건 부여 메커니즘을 통해,
별도의 태스크 특화 아키텍처 없이도 다양한 조건부 이미지 생성 과제에서 기존 최신 기법보다 우수한 성능을 보였음.