해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models논문을 다루었습니다.
결과표 및 요약 내용입니다.
![](https://velog.velcdn.com/images/jayce_97/post/898988ad-27e9-4be7-b520-98c14ae15ed4/image.png)
Unconditional LDM의 hyper-parameter 관련 표입니다.
![](https://velog.velcdn.com/images/jayce_97/post/53149cb2-bfce-4472-97e8-5a822043f92d/image.png)
해당 표는 2562크기의 CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms로 학습한 모델의 FID, Precision, Recall 결과표입니다.
요약
1. Latent Diffusion Model(LDM)
- 기존 Diffusion Model은 고해상도 이미지를 직접 처리하려 할 때 계산 비용이 매우 높음
- LDM은 고차원 이미지 데이터를 직접 처리하는 대신 저차원 잠재 공간(Latent Space)으로 변환해 효율성을 높임
- 잠재 공간은 이미지의 중요한 특성만 보존된 압축 표현으로, Diffusion 과정을 수행한 후 다시 고해상도로 복원
Diffusion Model의 작동 방식
- Diffusion Model은 데이터를 점진적으로 노이즈(noise)를 추가하는 전방 과정(forward process)과, 노이즈를 제거하며 원본 데이터를 복원하는 역방향 과정(reverse process)으로 이루어져 있음
- Latent Diffusion에서는 해당 과정을 잠재 공간에서 수행함으로써 계산비용과 메모리 요구량을 크게 줄임
LDM의 장점
- 효율성 : 고차원 공간에서의 연산을 피함으로써 Diffusion Model의 계싼 비용을 줄이고 훈련 속도를 높임
- 확장성 : 저차원 잠재 공간을 사용함으로써 더 큰 모델이나 데이터셋에 대해 쉽게 확장이 가능
- 품질 향상 : LDM은 이미지의 주요 특징을 잠재 공간에서 학습함으로써 고품질의 샘플을 생성가능
LDM의 구조
- LDM은 오토인코더를 사용해 이미지 데이터를 잠재 공간으로 변환
- 인코더 : 고차원 이미지 데이터를 잠재 공간으로 압축
- 디코더 : 잠재 공간에서 데이터를 다시 고차원 이미지로 복원
- Diffusion 과정은 잠재 공간에서만 이루어지며, 이를 통해 계산 비용과 메모리를 대폭 절감
기존 접근법과 비교
- Pixel Space Diffusion : 기존의 Diffusion Model은 픽셀 공간에서 노이즈를 추가하고 제거함으로써 계산 비용이 LDM에 비해 매우 높음
- Latent Space Diffusion : LDM은 계산량이 큰 잡업을 압축된 잠재 공간에서 수행하여 효율적
- 해당 차이로 인해 LDM은 동일한 자원으로 더 큰 해상도와 복잡한 데이터를 처리 가능