[ICLR 2024] DREAMLLM: SYNERGISTIC MULTIMODAL COMPREHENSION AND CREATION

ma-kjh·2024년 5월 28일
0

DREAMLLM: SYNERGISTIC MULTIMODAL COMPREHENSION AND CREATION (ICLR 2024 Spotlight)

https://arxiv.org/abs/2309.11499

Abstract

  • DREAMLLM은 처음으로 다목적 MLLM(Multimodal Large Language Models)을 제안
    다중모달의 이해(comprehension)와 생성(creation) 사이의 시너지를 활용함
  1. 첫번째로, raw multimodal space에서 직접적으로 샘플링함으로써 language와 image의 posterior을 모델링
  2. 두번째로, DREAMLLM은 모든 conditional, marginal, 그리고 joint multimodal distribution을 효과적으로 학습하기 위해서, 텍스트와 이미지 콘텐츠를 함께 모델링하고, 비구조적 레이아웃을 포함시킴

위 두가지 fundamental principle을 통해

  • 모든 conditional, marginal and joint multimodal distribution을 효과적으로 학습

지금까지 MLLMs들은

  • CLIP encoder와 explicitly align하도록 embedding을 생성
    1. 그러나 위 방법은 고유 modality gap 으로 인해 이미지 생성에서 제한이 존재함.
    2. 이러한 modality gap으로 인해, CLIP은 modality-shared 정보에만 초점을 맞춰져 있었고, multimodal comprehension을 향상시킬 수 있는 modality-specific knowledge 는 간과됨.
  • universal generative model (simultaneously learns language and image posterios)이 필요함을 강조.

Contribution

  1. CLIP 임베딩 과는 다르게 DREAMLLM은 모든 모달리티의 raw data를 입력 뿐만 아니라 출력으로도 완전한 end-to-end 방식으로 처리. (입력과 출력이 동일).
    1. 이 때 MLLM의 이해능력을 저해하지 않고 image posterior를 학습
    2. 이를 해결하기 위해 dream query 를 도입
      1. a set of learnable embeddings that encapsulate the semantics encoded by MLLMs.
      2. This approach avoids altering the output space of MLLMs.
      3. Raw image는 위 dream query로 condition된 SD image decoder에 의해 생성됨.
  2. 교차 생성 사전학습 (I-GPT)
    1. 교차되는 이미지-텍스트 멀티모달 입력을 encoding 그리고 decoding 함으로써, 인터넷으로부터 교차된 멀티모달 corpora를 생성하도록 훈련됨.
    2. 기존 multimodal input을 encoding하는 방법이랑 다르게, multimodal output을 decoding.
      unique \<dream> token을 사용해서 교차된 레이아웃 학습을 해결.

profile
거인의 어깨에 올라서서 더 넓은 세상을 바라보라 - 아이작 뉴턴

0개의 댓글