Multi-Concept Customization of Text-to-Image Diffusion

DeepDIV!·2023년 5월 1일

Stable Diffusion을 정의한 논문

컴퓨터 사용 리소스를 줄여서 가볍게 사용 가능

VAE
이미지와 같은 고차원 데이터를 encoding을 이용해 저차원의 hidden state로 표현 (성분 분해와 유사)-> decoder를 이용해 다시 이미지 생성(latent variable을 받아서 다시 복원)

  • latent space : 의미 정보를 담는 차원의 공간
  • latent variable : latent space에 들어가는 변수들

x 데이터를 encoder에서 latent variable로 맵핑하는 방법
: 평균과 분산을 이용한 정규 분포 방식의 샘플링 사용

  • noise를 더해서 미분 가능한 함수로 바꿔줌
    -> 이 함수를 학습시키는 방식으로 유도

VAE ELBO
: Auto Encoder의 objective를 유도하는 공식

  • 목표 : X를 만들어내는 p와 같은 함수를 찾는 것이 중요함
  • 방법
    1. Z로 한번 압축함
    1. Z를 전제로 X를 만들어내는 조건부 확률을 최대화하는 방식 (Bayes Rule 조건부 확률 식 이용)
      • 최종적인 VAE loss -> objective function : z를 베이스로 했을때, x를 만들어내는 함수를 유도해내는 것이 목표임!
        - 따라서, z로부터 x가 나타날 확률을 최대화하는 것으로 Maximum Likelihood estimation을 하게됨 -> 이를 cross entropy와 같은 방식으로 표현함
    • KL divergence 공식 : 두 함수의 분포차는 최소한의 bound가 되는 lower bound가 됨 -> 따라서 regularization의 텀으로 이 공식을 사용함
      • p(z) : latent space를 만들때의 함수(이미 알고 있음)
        • q(z|x) : x에서 z를 만들 함수(이미 알고 있음)

Diffusion model proces
auto encoder가 noise를 한번에 더하는 방식
diffusion은 noise를 더하는 방식에 스텝을 몇번을 나눠서 수행함

  • 각각의 스텝 = 하나의 함수

  • 스텝이 진행될 때마다 원본의 이미지가 좀 더 가우시안 분포에 가까워지는 과정 = diffusion process

  • 함수식
    - t-1 시점의 x가 t 시점으로 변화할 수 있는 forward 함수를 markov chain으로 형성 -> 전체적인 process의 정의

0. Abstract

1. Introduction

0개의 댓글