[LDM-Experiments] Image Generation with Latent Diffusion

Jayce_97·2025년 1월 17일

Experiments LDM 결과 이미지 생성

0

[논문]LMD

목록 보기

6/6

해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models논문을 다루었습니다.
결과표 및 요약 내용입니다.

Unconditional LDM의 hyper-parameter 관련 표입니다.

해당 표는 $256^2$ 크기의 CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms로 학습한 모델의 FID, Precision, Recall 결과표입니다.

요약

1. Latent Diffusion Model(LDM)

기존 Diffusion Model은 고해상도 이미지를 직접 처리하려 할 때 계산 비용이 매우 높음
LDM은 고차원 이미지 데이터를 직접 처리하는 대신 저차원 잠재 공간(Latent Space)으로 변환해 효율성을 높임
잠재 공간은 이미지의 중요한 특성만 보존된 압축 표현으로, Diffusion 과정을 수행한 후 다시 고해상도로 복원

Diffusion Model의 작동 방식

Diffusion Model은 데이터를 점진적으로 노이즈(noise)를 추가하는 전방 과정(forward process)과, 노이즈를 제거하며 원본 데이터를 복원하는 역방향 과정(reverse process)으로 이루어져 있음
Latent Diffusion에서는 해당 과정을 잠재 공간에서 수행함으로써 계산비용과 메모리 요구량을 크게 줄임

LDM의 장점

효율성 : 고차원 공간에서의 연산을 피함으로써 Diffusion Model의 계싼 비용을 줄이고 훈련 속도를 높임
확장성 : 저차원 잠재 공간을 사용함으로써 더 큰 모델이나 데이터셋에 대해 쉽게 확장이 가능
품질 향상 : LDM은 이미지의 주요 특징을 잠재 공간에서 학습함으로써 고품질의 샘플을 생성가능

LDM의 구조

LDM은 오토인코더를 사용해 이미지 데이터를 잠재 공간으로 변환

인코더 : 고차원 이미지 데이터를 잠재 공간으로 압축
디코더 : 잠재 공간에서 데이터를 다시 고차원 이미지로 복원

Diffusion 과정은 잠재 공간에서만 이루어지며, 이를 통해 계산 비용과 메모리를 대폭 절감

기존 접근법과 비교

Pixel Space Diffusion : 기존의 Diffusion Model은 픽셀 공간에서 노이즈를 추가하고 제거함으로써 계산 비용이 LDM에 비해 매우 높음
Latent Space Diffusion : LDM은 계산량이 큰 잡업을 압축된 잠재 공간에서 수행하여 효율적
해당 차이로 인해 LDM은 동일한 자원으로 더 큰 해상도와 복잡한 데이터를 처리 가능

AI (ML/DL) 학습

이전 포스트

[LDM-Experiments] On Perceptual Compression Tradeoffs

0개의 댓글

관련 채용 정보