[LDM-Experiments] Image Generation with Latent Diffusion

Jayce_97·2025년 1월 17일
0

[논문]LMD

목록 보기
6/6

해당 내용은 High-Resolution Image Synthesis with Latent Diffusion Models논문을 다루었습니다.
결과표 및 요약 내용입니다.


Unconditional LDM의 hyper-parameter 관련 표입니다.


해당 표는 2562256^2크기의 CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms로 학습한 모델의 FID, Precision, Recall 결과표입니다.

요약

1. Latent Diffusion Model(LDM)

  • 기존 Diffusion Model은 고해상도 이미지를 직접 처리하려 할 때 계산 비용이 매우 높음
  • LDM은 고차원 이미지 데이터를 직접 처리하는 대신 저차원 잠재 공간(Latent Space)으로 변환해 효율성을 높임
  • 잠재 공간은 이미지의 중요한 특성만 보존된 압축 표현으로, Diffusion 과정을 수행한 후 다시 고해상도로 복원

Diffusion Model의 작동 방식

  • Diffusion Model은 데이터를 점진적으로 노이즈(noise)를 추가하는 전방 과정(forward process)과, 노이즈를 제거하며 원본 데이터를 복원하는 역방향 과정(reverse process)으로 이루어져 있음
  • Latent Diffusion에서는 해당 과정을 잠재 공간에서 수행함으로써 계산비용과 메모리 요구량을 크게 줄임

LDM의 장점

  • 효율성 : 고차원 공간에서의 연산을 피함으로써 Diffusion Model의 계싼 비용을 줄이고 훈련 속도를 높임
  • 확장성 : 저차원 잠재 공간을 사용함으로써 더 큰 모델이나 데이터셋에 대해 쉽게 확장이 가능
  • 품질 향상 : LDM은 이미지의 주요 특징을 잠재 공간에서 학습함으로써 고품질의 샘플을 생성가능

LDM의 구조

  • LDM은 오토인코더를 사용해 이미지 데이터를 잠재 공간으로 변환
  1. 인코더 : 고차원 이미지 데이터를 잠재 공간으로 압축
  2. 디코더 : 잠재 공간에서 데이터를 다시 고차원 이미지로 복원
  • Diffusion 과정은 잠재 공간에서만 이루어지며, 이를 통해 계산 비용과 메모리를 대폭 절감

기존 접근법과 비교

  • Pixel Space Diffusion : 기존의 Diffusion Model은 픽셀 공간에서 노이즈를 추가하고 제거함으로써 계산 비용이 LDM에 비해 매우 높음
  • Latent Space Diffusion : LDM은 계산량이 큰 잡업을 압축된 잠재 공간에서 수행하여 효율적
  • 해당 차이로 인해 LDM은 동일한 자원으로 더 큰 해상도와 복잡한 데이터를 처리 가능
profile
AI (ML/DL) 학습

0개의 댓글

관련 채용 정보