✨[Daily report] 24-06-13

kiteday·2024년 6월 13일

목록 보기

43/69

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
VQGAN에서부터 이어지는 LLM 이미지 생성 계보들의 발전의 현주소인가 생각했다. 모델명은 LlamaGen.
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
NSFW같은 만들어지면 안되는 이미지를 검열해(aligning) 이미지를 생성하도록 한 모델. 이미지를 잘 생성한다는 것은 여러가지 중의적 의미를 가질 수 있는데 대부분 화질, 이미지 해상도 등에 초점을 맞추지만 여기선 잘못된 콘텐츠가 아닌 것에 초점을 두었다. 연구의 중요한 방향 중 하나라고 생각한다.
Unified Text-to-Image Generation and Retrieval
이미지 생성 연구는 사용자의 의도를 반영하는 것이 큰 과제이다. 그 과제를 해당 연구에선 retrival방식으로 해결하고자 했다. MLLM을 이용해 입력 prompt와 knoledge를 결합해 사용하여 정확도를 높였다. 솔직하게 아직 MLLM으로 이미지 처리하는 과정이 완벽하게 와닿지는 않는다. 그렇지만 매일보다 보면 익숙해지고 내 것이 되리라 생각한다.
MLCM: Multistep Consistency Distillation of Latent Diffusion Model
consistency distillation 모델들이 힘을 더 갖게 되는 것 같음을 느낀다.

Vript: A Video Is Worth Thousands of Words
video에 대해서 text description을 작성해주는 모델이다. LLaVA와 같은 일을 하는 모델이라고 생각하면 된다.
An Image is Worth 32 Tokens for Reconstruction and Generation
VQGAN이 256개의 토큰을 가지고 있었다면 TiTok은 32개만으로 충분하다고 한다. 픽셀기반 토큰이 아니라 semantic latent를 토큰화하는 아이디어라고한다. 저자들은 틱톡회사인 Bytedance.
Simple and Effective Masked Diffusion Language Models
하다하다 디퓨전으로 텍스트를 만드네

Daily report