최근 추천 받은 DDPM(Denoising Diffusion Probabilistic Model)과 LDM(High-Resolution Image Synthesis with Latent Diffusion Models)을 학습을 시작하려고 합니다.
우선 학습을 시작할 논문은 LDM 입니다. 선택한 이유는 두 모델 특징과, 장단점을 보며 선택하였습니다.
DDPM
특징
- 이미지 합성에서의 확률적 모델로, 농이즈를 점진적으로 제거하면서 고해상도 이미지를 생성
- 노이즈를 추가하는 "점진 과정"과 노이즈를 제거하며 원본 이미지를 재구성하는 "역 과정"으로 구성
- 노이즈 레벨이 높은 이미지를 순차적으로 복원하여 고품질의 이미지를 생성
장점
- 노이즈 제거를 통한 이미지 합성으로 높은 품질의 이미지를 생성
- 생성 과정이 안정적이며, 세밀한 부분까지 잘 복원
단점
- 이미지 합성 속도가 느림, 역 과정 중 수백 단계의 연산이 필요하기 때문에 실시간에 적합하지 않음
- 대규모 연산 자원이 필요
LDM
특징
- DDPM과 비슷한 원리로 작동하지만 픽셀이아닌 Latent Space(잠재공간)에서의 확산 과정을 활용하여 연산 효율이 높음
- 사전 학습된 오토인코더를 사용해 Latent Space를 얻으며, 이 공간에서 노이즈 제거 작업을 수행함으로써 학습 및 합성 속도가 높음
장점
- DDPM 대비 연산량이 적음
- Latent Space에서의 학습으로 DDPM보다 빠르게 고해상도 이미지를 생성
단점
- Latent Space 사용으로 인해 DDPM보다 세밀한 복원이 어려움
- 오토인코더 성능에 따라 성능 영향이 있음
정리
모델 | DDPM | LDM |
---|
특징 | 점진적인 노이즈 제거로 이미지 생성 | Latent Space에서의 노이즈 제거로 고속 이미지 생성 |
장점 | 높은 품질의 이미지, 안정적인 생성 과정 | 빠른 속도, 연산 효율성 |
단점 | 느린 속도, 대규모 연산 필요 | 세밀한 디테일 손실 가능 |
이와 같은 특징으로 인해 좀 더 적은 자원으로 사용할 수 있는 LDM을 학습하기로 결정하였습니다.
주에 하나씩 학습한 내용을 정리하는 방식으로 글을 작성하려 합니다.
😁 power through to the end 😁