해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models
관련 리뷰입니다.
학습 및 inference 모두에서 픽셀 기반 diffusion model과 비교 및 장점 분석입니다.
VQ-regularized latent space에서 학습된 LDM이 때때로 더 나은 샘플 품질을 생성합니다.
LDM 학습에 대한 정규화 체계의 효과와 보다 큰 해상도에 대한 재구성 능력 사이의 시작적 비교 결과물 입니다.
해당 논문에서 데이터 압축은 단순히 수학적 재구성 오류를 최소화하는 문제를 넘어, 인간의 지각(Perception)과의 관계를 고려해야 한다고 합니다. 해당 섹션에서는 압축 알고리즘 설계와 평가에서 지각적 품질과 비 지각적 품질 간의 균형점을 다룹니다.
해당 표는 이 섹션에서 비교한 LDM에 사용된 First stage model의 hyper-parmaeter 및 재구성 성능 표입니다.
해당 그래프는 ImageNet으로 클래스 조건부 모델을 200만 Step 학습할 때 Step에 대한 샘플 품질 (FID,IS)를 보여줍니다.
해당 결과를 통해 2가지를 확인 할 수 있는데,
1. 작은 Downsampling factor는 학습을 느리게 합니다.(LDM-1, LDM-2)
2. 지나치게 큰 f 값은 비교적 적은 Step에서 샘플 품질의 정체를 유발합니다.(LDM-32)
LDM-4부터 LDM-16까지는 효율성과 Perceptual하게 적절한 균형을 유지합니다.
해당 그래프는 CelebA-HQ와 ImageNet으로 학습한 LDM의 샘플링 속도와 FID를 비교한 결과입니다. CelebA-HQ는 50만 step, ImageNet은 200만 step동안 학습되었으며 각 마커는 10, 20, 50, 100, 200 DDIM step으로 샘플링하였습니다.
결과적으로 LDM-4와 LDM-8의 성능이 제일 좋다는 것을 확인 할 수 있습니다.