[Generation] 7. Diffusion model (DDPM)

hmin·2024년 7월 14일

Computer Vision DDPM Generative Model diffusion

Generation

목록 보기

6/6

드디어 Diffusion을 정리하는 첫 포스팅. 생성형 ai의 붐을 일으킨 장본인인 Diffusion 모델에 대해 정리해보자.

Diffusion

자 드디어 diffusion으로 왔다. 생성형 모델 중 현재 가장 hot한 diffusion 모델에 대해 공부해보자. 우선 Diffusion이란 무엇일까?

Diffusion은 실제 이미지에 t step에 걸쳐 노이즈를 조금씩 추가하는 방식이다. 이때 노이즈는 deterministic function을 이용하여 조금씩 원본 이미지에 추가한다. T step이 지나면 원본 이미지는 완전한 noise가 된다. 그럼 Diffusion 모델은 이러한 noise로 부터 노이즈를 조금씩 제거하여 이미지를 생성하는 방식으로 학습하는 모델이다.

Diffusion 방식을 활용한 많은 논문들이 있지만 가장 먼저 Denoising Diffusion Probabilistic Models를 알아보자.

DDPM

📖 Paper: https://arxiv.org/abs/2006.11239

👩‍💻 Ref blog: https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

Diffusion은 forward diffusion process와 reverse diffusion process로 나뉜다. forward 는 실제 이미지에 노이즈를 추가하는 과정을, reverse 는 반대로 완전한 노이즈로 부터 노이즈를 조금씩 제거하는 과정을 나타낸다.

Forward Diffusion Process

Forward Diffusion은 원본 이미지에 노이즈를 조금씩 추가하는 방식이다. 다음 전개식은 $x_0$ (원본 이미지)에서 $x_T$ (완전한 노이즈)로 가는 transition 함수를 deterministic하게 정의한 것이다.

위 식은 $x_{t-1}$ 가 주어졌을 때 $x_t$ 로 딱 한 step에 대한 transition 식이다. 하지만 앞서 말했 듯 Forward Process 는 deterministic한 함수의 연속이다. 그렇다면 $x_0$ , 즉 실제 real world 이미지가 주어졌을 때 time step t 번째 샘플을 얻을 수 있다.

이를 수학적으로 풀어보면 다음과 같다 .

즉, 위 처럼 식을 전개하면 x0에서 바로 내가 샘플링하기를 원하는 xt의 샘플을 얻을 수 있다.

Gaussian Smoothing

위에서는 x0가 주어졌을 때 xt를 구하는 방식에 대해서 논했다. 그럼 이번에는 $q(x_t)$ 를 다이렉트하게 구할 수 있을까?

위 식처럼 결국 $q(x_t)$ 의 diffused data의 분포는 input data의 분포와 diffusion kernel의 분포를 곱한 것으로 부터 구할 수 있다.

따라서 결국 원본 데이터로부터 완전한 노이즈로 가는 forward diffusion process를 일종의 gaussian smoothing 과정이라고 볼 수 있다.

복잡한 분포로 부터 작은 노이즈를 점차 더해가면서 최종적으로는 간단한 가우시안 분포를 띄게 만들고 있다.

물론 이를 이용하면 reverse diffusion process까지 정의할 수 있다.

이번에는 완전한 가우시안 노이즈인 $q(x_T)$ 에서 부터 실제 이미지 분포로 매핑하는 과정이다. 여기서는 앞선 forward와 반대로 $q(x_{t-1}|x_t)$ 를 곱해 최종적으로는 $q(x_0)$ 을 구해야 한다.

⭐ 하지만 문제는 $q(x_{t-1}|x_t)$ 를 계산하는 것이다.

$q(x_{t-1}|x_t) = { q(x_{t-1})q(x_t|x_{t-1}) \over q(x_t)}$ 에서 사실 $q(x_t), q(x_{t-1})$ 을 계산하는 것은 매우 복잡하다. ( $x_0$ 부터 $x_t$ 까지 차례대로 인테그랄로 계산해야 하는데 너무 복잡하기에 intractable하다)