Dreambooth

이 모델은 text embedding에 의하여 조건화 되었기 때문에 텍스트로 우리가 원하는 내용을 입력하여 이미지를 출력할 수 있는 것이다. 이 조건화 과정은 attention 등의 방법을 사용하여 매우 복잡한 과정을 거쳐서 이루어진다.
위에서 random latent vector를 n번 반복하여 denoise 한다 → 이때 반복전에 어떤 방식(노이즈의 세기, 종류, 확률 편미분 방정식 이용 등)으로 처리하고 반복하느냐를 결정하는 것이 바로 scheduler의 역할
- scheduler의 종류로는 여러가지가 있는데 DDPM, DDIM, PNDM, Euler, Euler a, DPM++ 등이 있다. Stable diffusion을 직접 사용해본 사람이면 많이 봤을법한 스케줄러(샘플러)들이다. 스케줄러의 정확한 작동방식은 다양하고 어려움

저해상도의(위 예제에서는 64x64) latent vector 값이 생성되게 된다. 이 값은 마지막으로 VAE로 전달되게 된다.

3. VAE

VAE에서 encoder는 어떤 값을 수학적 원리를 통해 그 값의 특징을 추출하여 학습하고 decoder는 임의의 값 z(특징에 대한 latent vector)가 주어지면 그 값을 바탕으로 원래 데이터로 복원하는 역할을 한다.

Stable diffusion의 이 부분에서 Latent Diffusion Model 이냐 그냥 Diffusion Model 이냐의 차이가 발생한다.

Latent Diffusion 모델 : U-net에서 학습되고 이를 바탕으로 생성된 값 자체가 Diffusion 모델 처럼 이미지의 픽셀과 같은 원본 값이 들어간게 아니라 VAE에 의하여 Encode 되어 latent vector화 된 값을 U-net에 학습해 주었기 때문에 U-net에서 복원되어 나온 저해상도의 Latent vector를 VAE로 다시 Decode하여 고해상도의 그림으로 만들어 주는 것

더 효율적으로 고해상도의 이미지를 얻을 수 있게 된 것

4. 이미지 생성 모델

기존의 DALL:E 나 IMAGEN 과 같은 모델들에 비해 더 좋은 성능을 내는 이유가 바로 이미지 생성 모델에 숨겨져 있음

이미지 생성 모델 평가 방법 https://pitas.tistory.com/12
DALL:E
https://devocean.sk.com/blog/techBoardDetail.do?ID=164090

Dream Booth

Paper

https://arxiv.org/abs/2208.12242

References

https://pitas.tistory.com/11

https://www.sktenterprise.com/bizInsight/blogDetail/dev/2494
https://ostin.tistory.com/127

https://smilegate.ai/2022/09/04/dreambooth-personalized-text-to-image-diffusion-model/

Concept

Latent Diffusion 모델에서는 학습가능한 파라미터의 영역은 크게 텍스트 인코더와 U-net 영역이 있으며, 드림부스는 두가지 파라미터 모두를 학습한다.

Why Dream Booth?

기존 2가지 문제점 해결함

주제 기반의 이미지 생성
→ 몇 장의 간단한 사진만으로 주제의 시각적 특징에 대한 높은 충실도를 유지하면서 새로운 맥락의 사진을 합성하는 것
몇 장의 이미지로 text-to-image diffusion모델을 fine-tuning 하면서도, 기존 모델의 Semantic knowledge를 보존하는 것.

📌 Dreambooth는 기존의 Fine-tuning과는 달리 적은 수의 이미지만으로 모델의 오염(overfitting, language drift) 없이 학습이 가능하기 때문에 개인이 더 손쉽게 fine-tuning이 가능하다.

Diversity

https://pitas.tistory.com/13

Custom Diffusion

Dreambooth

Latent Diffusion

Diffusion

Imagen

Textual Inversion

Stable Diffusion

Paper

References

Concept

Architecture

1. Text Encoder

CLIP

2. Unet

3. VAE

4. 이미지 생성 모델

Dream Booth

Paper

References

Concept

Why Dream Booth?

Diversity

Custom Diffusion

Paper

References

Summary

Multi-Concept Customization of Text-to-Image Diffusion

Dreambooth

0개의 댓글