Diffusion Models in Vision: A Survey

Evergyu·2024년 4월 20일

논문리뷰

목록 보기
2/6
post-thumbnail

I. INTRODUCTION

Diffusion models 들은 Stable Diffusion, Latent Diffusion Models 로 언급되는 것들은 뛰어난 generalization capacity를 증명하고 있음

Diffusion model들은 넓은 범위에서 사용되고 있음

image generation,
image super-resolution
image inpainting
image editing
image-toimage translation

latent vector → classification, segmentation, anomaly detection

데이터 표현 학습도 함 (novel 신경망 구조 설계, 학습 전략 개발)

CV에서 Diffusion model들은 빠르게 연구되고 있어서 우리는 간단한 리뷰를 진행하였다. Diffusion model은 Forward stage(noising), Reverse stage(denoising) 으로 이루어져 있다.

우리는 세 가지 하위 카테고리로 서베이를 구성할 것이다.

  1. DDPMs : non-equilibrium thermodynamics theory

    DDPM은 잠재 변수의 확률 분포를 추정하는 latent variable model이다. 이는 VAE와 유사하다

  2. NCNS : noise conditioned score ntework

    노이즈에 따라 점수를 매기는 방식

  3. SDEs : Stochastic differential equations

    generalization에 위 두 모델보다 더 많이 기여한 방식

우리는 다른 생성 모델 (VAE, GAN, EBM, autoregressive model, normalizing flow)와 diffusion model의 프레임워크를 비교하고 다양한 시각에서 categorization 했으며 현재 diffusion model 들의 한계인 시간 효율성에 대해서도 기술했다.

독자들의 빠른 이해를 위해 모델링 구조 비교와 CV에 적용된 시간에 따른 간단한 리뷰를 했다.

다양한 시각에서 DIFFUSION MODEL을 분류하였다

II. Generic framework

Diffusion model은 원본 데이터를 삭제했다가 UNet구조의 신경망으로 닷 복원하는 작업을 거친다.

A. DDPM (Denoising diffusion probabilistic model)

데이터 p(x0)p(x_0)는 마르코프 체인에 의해 점점 노이즈가 낌

Forward process 이런 식으로 진행이되고 결국

xtx_t는 아래 수식처럼 오리지널 버전에서 노이즈의 정도 차이에 따라 아래 수식처럼 정리가 됨

근데 pθ(x0)p_{\theta}(x_{0})의 최대우도를 추정할 수가 없기 때문에 KL 다이버전스를 사용하여 negavie 우도가 작아지는 방향으로 최적화를 진행

B. NCSN (noise conditioned score network)

Langevin dynamics algorithm을 사용하여 random sample을 toward sample로 변환

x0x_0 ~xNx_N을 추정하는 함수인데 여기서 신경망 추론값(좌)이 스코어 함수(우)와 비슷해지도록 학습을 하는데 스코어 함수는 정해지지 않음

이에 대한 해결책으로 denoising score matching 과 sliced score matching 이 있는데 denoising score matching을 적용하면 최종적으로 아래 식이 나옴

C. SDE (stochastic differential equation)

이해를 못해서 후에 논문을 읽어봐야함

forward process :

Untitled

Reverse process :

Untitled

D. Relation to other Generative Models

1. VAE

공통점 - latent space로 매핑함

차이점 - VAE의 latent space는 정보를 담고 원본 데이터와는 차원의 형태가 다른 경우가 많음

2. Autoregressive model

이미지를 pixel의 sequence로 보고 pixel을 생성함

3. Normalizing flow

간단한 가우시안 분포를 복잡한 data로 변환 시키는데, 이때 Jacobian determinant를 사용

4. Energy based model

정규화되지 않은 버젼의 분포를 추정함

regression 신경망은 모두 이걸로 표현이 되지만 너무 다양해서 표현하기 어려움

5. GAN

Adversarial network, Diffusion 보다 안정적이진 않지만 효율적임(시간)

Untitled

Untitled

Untitled

Untitled

Untitled

Untitled

profile
딥러닝 공부중

0개의 댓글