논문 분석: Denoising Diffusion Probabilistic Models

원성혁·2023년 2월 7일
0

paper_review

목록 보기
10/22
post-thumbnail

스터디원이 DDPM을 발표했다. 그래서 나도 이 논문을 읽어보고 정리해 보고자 한다.

Abstract

latent variable models인 Diffusion Probabilistic model을 사용한다고 한다.
CIFAR10을 사용해서 이미지 생성을 했으며 ProgressiveGAN과 유사한 성능을 보인다고 한다.

Introduction

Diffusion model은 variational inference을 사용하여 훈련된 매개변수화된 Markov chain이다.
데이터에 noise를 추가하며 data 원래 signal이 파괴될때까지 Markov chain Diffusion process를 역전시키는 방향으로 학습된다.
여기서 noise는 Gaussian Noise이다.

Diffusion model은 정의와 학습은 쉽지만 고품질 sample을 시연한 사례가 없었다. 그래서 이 논문은 고품질 sample 생성 결과를 보여준다.

이 model은 다른 likelihood-based models에 비해 강력한 log likelihoods가 없다. 하지만 the large estimates annealed importance보다 더 좋은 log likelihoods 가진다.
또한 이 모델은 이미지 세부 상황을 한다.

Background

Diffusion model은 latent variable models 이다.
joint distribution으로 reverse process를 표현하며 그것은 Markov chain with learned Gaussian transitions으로 정의된다.


식 전개에 있어 KL-Divergence와 Monte Carlo estimate가 사용된다.

Diffusion models and denoising autoencoders

Diffusion model의 latent variable은 보기에는 제한되어 보이지만 실제로는 구현에서 많은 자유도를 허용한다.
Forward process에서는 분산을, Backward process에서는 model architecture나 Gaussian distribution parameterization을 선택해야한다. 저자는 선택을 돕기 위해 Diffusion model과 denoising score matching을 명시적으로 연결한다고 한다.
단순하지만 정당한 결과를 줄것으로 예상한다.

Forward process LT

variances βt를 상수로 고정해서 reparameterization 학습 가증성을 배제시키며 LT또한 이 원리로 무시된다.

Backward process L1:T −1

pθ(xt−1|xt) = N(xt−1;μθ(xt,t),Σθ(xt,t)) (1 < t ≤ T)

요약하면 μθ를 훈련하여 μ ̃t를 예측하거나 parameterization을 수정하여 예측하도록 훈련할 수 있다.

Data scaling, reverse process decoder, and L0


VAE 즉 Decoder을 사용한 것을 볼 수 있다.

Simplified training objective


식의 가중치를 버리는 단순화로 재구성의 다른 측변을 강조하는 standard variational bound이다. 적은 양의 노이즈를 제거하도록 훈련하며 더 큰 t에서 Denoising을 훈련할때 집중을 위해 가중치를 줄이는 것이 좋다.

Experiments

모든 실험에 T=1000, ß1=10 ß2=0.02로 선형적으로 증가하는 상수를 사용했다.
CIFAR-10을 사용한다.

실제 변형 범위가 아닌 경우 더 좋은 샘플을 뽑아낸다.!

Conculusion

Diffusion model 로 high-quality image를 얻는 것을 성공했다.
다음을 발견했다.
1. connections among diffusion models
2. variational inference for training Markov chains
3. denoising score matching and annealed Langevin dynamics

profile
AI개발자를 향해 전진중

0개의 댓글