PR-384: Retrieval-Augmented Diffusion Models

YeonJu Kim·2023년 1월 30일

PR12 Season4 정리

목록 보기
5/6

1. Image Synthesis 성공 요인

  1. Transformer: 복잡한 관계를 효과적으로 모델링
  2. Diffusion: Auto-regression을 넘어서 Likelihood estimation을 할 때도 사용
  3. Scale of Model, Dataset

2. 이 연구의 motivation

  • parameter를 늘리는 것 외에도 external memory를 사용해서 성능을 높이자
    • NLP에서는 RETRO 사용

3. 제목 설명: Retrieval-Augmented, Semi-parametric

  • Retrieval-Augmented
    • NN으로 DB에서 유사한 sample retrieval
    • CLIP embedding 사용
  • semi-parametric model
    • parametric + Nonparamteric

제목도 이해가 안되네..

4. 유사한 연구

4-1. KNN-diffusion

  • retrieval based로 reference 보여주고, 좀 더 그럴듯한 이미지 생성

4-2. Semi-parametric generative model

  • trainable part, non-trainable part 둘 다 넣어서 학습
  • parameter + fixed dataset(reference) + sampling strategy
  • 그냥 image를 condition으로 주면 너무 high dimension
  • image embedding 사용

4-3. Latent diffusion model(LDM)

  • UNCLIP에서는 resize를 하고, reversed diffusion, super-resolution을 했음
  • LDM에서는 압축하고, reversed diffusion, VQGAN

CLIP 장점

  • 텍스트와 이미지 사이의 shared representation
  • compact feature

5. 해당 모델

  • latent diffusion model으로 generation

    • 압축
    • reversed diffusion
    • VQGAN으로 다시 해상도 높이기
  • CLIP으로 retrieval

  • unconditional image generation : 학습에 많이 기여한 sample 위주로 고르기 위해 proposal distribution에서 sampling

6. Conclusion

  • 유사한 이미지 condition
  • 모델 사이즈 키우지 않고, external DB사용해서 성능 높이기
  • CLIP embedding
  • 학습은 이미지로만

6-1. Discussion

  • external datasets가 어떻게 구성됐나요?
  • dataset의 hierachy에 따라 달라진다?? 사이즈와 scale은?
  • 기존 diffusion model을 fine tuning하는 형식으로?
  • larger CLIP backbone을 쓰면 성능이 더 좋을까?

이 논문은 Retrieval-Augmented Diffusion Models

  • generation task
  • generation model로는 Latent diffusion model
  • CLIP을 이용하여 비슷한 이미지를 retrieval하여 condition으로 넣고 generate하는 것
    • Latent diffusion model은 이미지를 압축해서 latent embedding에서 diffusion을 하는 것
  • external memory를 사용하는게 흔한 것이 아니구나
    • 지금 하는 것도 external memory를 사용하고 있음
    • external memory를 사용하면 뭐가 좋은지 찾아봐야 겠다.
  • external memory를 사용하면 좋은 점
  • CLIP을 사용하면 좋은 점
profile
2023년 기록, 2023년 계획 : 연구, 블로그, 컨트리뷰션

0개의 댓글