[Paper] Latent Diffusion Model

junhjun·2023년 8월 5일

IN-ISP Project

목록 보기

15/16

High-Resolution Image Synthesis with Latent Diffusion Models

논문을 읽고 내용을 간략히 정리함

Diffusion Model

Diffusion Model은 점진적인 Denoising 작업을 통해 데이터 분포를 학습하는 확률 모델임

입력 이미지 X0에 점진적으로 가우시안 노이즈를 부여하여 완전한 랜덤 노이즈 XT를 만들고,
XT의 노이즈 제거 시 분포를 예측하도록 학습함

즉, 노이즈로부터 원본 이미지로 복원하는 과정을 학습하여 이를 바탕으로 이미지 생성을 수행함

Latent Diffusion Model

(1) Perceptual Image Compression

기존 Diffusion Model은 'pixel space' 이미지 자체에 노이즈를 추가/제거 하기 때문에, 고해상도 이미지의 경우 컴퓨팅 비용이 많이 소요되었음

이를 해결하기 위해 AutoEncoder를 이용하여 원본 이미지를 저차원의 'latent space'로 압축하도록 함

저차원 공간에서 학습과 샘플링을 수행할 수 있으므로 계산 효율성을 높일 수 있었음

(2) Conditioning Mechanism

Conditioning은 다른 모달리티를 통해 이미지 합성 과정을 제어할 수 있도록 함

다양한 모달리티를 전처리 할 수 있는 cross-attention 연산을 통해, 기존 U-Net 네트워크에 투입함

이를 통해 Text, Image, Semantic Map 등 입력이 이미지 합성에 영향을 줄 수 있도록 함

결국 LDM은 pixel-based DM 보다 더 적은 컴퓨팅 자원으로 훌륭한 성능을 유지할 수 있었음

(1) Encoder : 입력 이미지는 Encoder를 거치며 작은 사이즈(64x64)의 latent vector로 압축됨
(2) Diffusion Process : 노이즈를 점진적으로 더해주는 과정을 통해, noisy latent vector가 생성됨
(3) Denoising : 노이즈를 점진적으로 제거함
(4) Conditioning : 다양한 모달리티의 입력을 처리하여 Denoising에 적용됨
(5) Decoder : 노이즈 제거된 latent vector는 Decoder를 거치며 원본 이미지 형태로 복원됨