BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

강민석·2024년 12월 18일

VLM multi-modal

논문

목록 보기

1/27

Abstract

BLIP-2는 대규모 모델의 종단 간 학습으로 인해 비전-언어 사전 학습 비용이 증가하는 문제를 해결하기 위해 고안된 효율적인 사전 학습 전략이다.

BLIP-2는 미리 학습된 이미지 인코더와 대형 언어 모델(LLM)을 고정한 채로 활용하고, 가벼운 쿼리 변환기(Query-Transformer)를 통해 모달리티 간 격차를 해소한다.

이 쿼리 변환기는 두 단계로 사전 학습된다.
첫 번째 단계 : 고정된 이미지 인코더를 통해 비전-언어 표현 학습을 수행
두 번째 단계 : 고정된 언어 모델을 사용해 비전-언어 생성 학습을 수행

BLIP-2는 기존 방법들 보다 훨씬 적은 학습 가능한 매개변수를 사용하면서도 다양한 비전-언어 문제에서 최첨단 성능을 달성한다.

1. Introduction

VLP연구는 최근 몇 년 동안 빠르게 발전해오고, 점점 더 대규모화된 사전 학습 모델들이 개발되어 성능을 지속적으로 갱신하고 있다.
그러나, 대부분의 비전-언어 모델은 대규모 모델, 데이터 셋을 사용한 종단 간 학습으로 인해 높은 계산 비용을 요구한다.

비전-언어 연구는 비전과 언어라는 두 가지 영역의 교차점에 위치하기 때문에, 비전-언어 모델은 비전과 자연어 커뮤니티에서 제공되는 단일 모달 모델들로부터 많은 이점을 얻을 수 있다.

이 논문에서는 이러한 고정된 Pre-trained 된 단일 모달들을 효율적으로 활용하여 계산 비용을 절감할 수 있는 일반적이고 효율적인 사전 학습 방법을 제안한다.

사전 학습된 비전 모델은 시각 표현을 제공하고, 대규모 언어 모델은 언어 생성 능력과 제로샷 전의 능력을 제공한다.
계산 비용을 줄이고 모델의 "망각"문제를 방지하기 위해 이 연구에서는 단일 모달 사전 학습 모델들을 고정한 상태에서 사전 학습을 진행한다.

비전 모델과 대규모 언어 모델의 능력을 활용하기 위해 모델을 재학습 시키지 않고, 고정된 상태로 사용한다.(추가 학습 최소화)
새롭게 학습한 내용 때문에 기존에 배웠던 중요한 정보를 잃어버리는 망각 문제가 발생할 수 있기 때문이다.

이러한 고정된(Frozen) 단일 모달 모델들을 활용하기 위해서는 크로스모달 정렬을 촉진하는 것이 중요하다.

하지만 LLM은 단일 모달 사전 학습 동안 이미지를 본 적이 없기 때문에, 이를 고정한 상태에서는 비전-언어 정렬이 어려워진다.

크로스모달 정렬은 서로 다른 데이터 유형(이미지와 텍스트)를 하나로 연결하는 작업이다.
LLM은 텍스트 데이터를 기반으로 학습했기 때문에, 이미지를 다룬 경험이 없어, 고정된 상태로 활용하면 이미지를 언어 데이터와 연결하는 것이 어려워진다.

이에 따라, 새로운 두 단계 사전 학습 전략을 통해 미리 학습된 단일 모달 모델들 간의 격차를 해소할 수 있는 쿼리 변환기(Q-Former)를 제안한다.
Q-Former는 고정된 이미지 인코더에서 유용한 시각 정보를 추출하여 고정된 LLM에 전달하는 정보 병목 역할을 한다. 이를 통해, 비전과 언어 간 정렬을 효과적으로 달성하고, LLM을 활용하여 이미지와 텍스트를 보다 효율적으로 결합한다.

Q-Former는 고정된 이미지 모델로부터 이미지를 분석하여 중요한 정보를 추출하고 이 정보를 LLM에 전달하여 이미지 데이터를 텍스트로 표현할 수 있게 한다.

2.1 End-to-end Vision-Language Pre-training

비전-언어 사전 학습은 다양한 비전-언어 과제에서 성능을 향상시키기 위한 멀티모달 기초 모델을 학습하는 데 목적이 있다.
다운스트림 과제에 따라 다양한 모델 아키텍처가 제안되었고, 다양한 사전 학습 목표가 제안되었다.

비전-언어 사전 학습은 이미지 데이터와 텍스트 데이터를 결합하여 학습한 다중모달 모델을 만들어, 다양한 비전-언어 과제(예: 이미지 캡션 생성, 비전 기반 질의응답, 이미지-텍스트 검색 등)에서 성능을 향상시키는 것을 목표로 하며 세 가지 주요 접근법으로 정리된다.

이미지-텍스트 대조 학습(ITC)
이미지-텍스트 매칭(ITM)
언어 모델링(MLM)

대부분의 VLP 방법은 대규모 이미지-텍스트 데이터셋을 사용하여 종단 간 사전 학습을 수행한다.
하지만 모델 크기가 계속 증가함에 따라, 학습 비용이 극도로 높아질 수 있고 종단 간 학습 모델은 LLM과 같은 이미 학습된 단일 모달 모델을 유연하게 활용하기 어렵다.

기존 종단 간 학습 방식이 계산 비용이 높고 유연성 부족이 부족하다
BLIP-2는 이를 극복하기 위해 미리 학습된 모델을 활용한 효율적인 접근 방식을 제안할 것

2.2 Modular Vision-Language Pre-training

우리의 접근 방식과 유사한 방법은 사전 학습된 모델을 그대로 활용하며 학습을 진행하는 접근이다.

이미지 인코더 고정
언어 모델 고정

고정된 LLM을 사용할 때의 주요 과제는 시각적 특징을 텍스트 공간에 정렬시키는 것이다. 이를 위해 Frozen, Flamingo의 방법을 사용하는데, 이러한 방법은 텍스트 조건으로 이미지를 생성하는 손실을 채택한다.
이는 모달리티 간 격차를 충분히 해소하지 못한다.

기존 방법들과는 다르게 BLIP-2는 고정된 이미지 인코더와 고정된 LLM을 모두 효과적이고 효율적으로 활용하여 다양한 비전-언어 작업에서 더 낮은 계산 비용으로 강력한 성능을 달성한다.

모듈형 비전 언어 사전 학습은 미리 학습된 단일 모달 모델을 활용하고 이러한 모델들을 고정 상태로 사용한다.(BLIP-2와 비슷한 방식(미리 학습된 모델을 고정하여 사용하는 방식)을 사용한다.)
기존 연구 사례로 이미지 인코더 고정, 언어 모델 고정이 있었는데, 기존 방법은 이미지-텍스트 생성 손실을 사용하여 학습하지만 이는 이미지와 텍스트 간의 모달리티 격차를 해소하지 못한다.(BLIP-2와 비슷한 방식을 사용하지만 한계(효율성과 모달리티 정렬 측면)가 존재한다.)
-> BLIP-2는 이러한 한계를 극복한다.

3. Method

우리는 고정된 사전 학습된 단일 모달 모델을 기반으로 비전-언어 사전 학습을 수행하는 새로운 방법인 BLIP-2를 제안한다.
모달리티 간 격차를 해소하기 위해, 두 단계로 사전 학습된 Q-Former를 도입한다.

비전-언어 표현 학습 단계
비전-언어 생성 학습 단계

이 섹션에서는 Q-Former의 모델 아키텍처를 먼저 설명한 후, 두 단계로 이루어진 사전 학습 절차를 설명한다.

3.1 Model Architecture

고정된 이미지 인코더와 고정된 대규모 언어 모델 간의 격차를 해소하기 위해 학습 가능한 모듈인 Q-Former를 제안한다.
Q-Former는 입력 이미지의 해상도와 무관하게 고정된 수의 출력 특징을 생성한다.

Q-Former는 고정된 이미지 인코더와 고정된 대규모 언어 모델 사이에서 중개자 역할을 한다.

이미지에서 중요한 정보를 추출해 언어 모델이 이해할 수 있는 형식으로 변환

병목 구조를 사용하여 이미지에서 가장 필요한 정보만 선택적으로 전달한다.

Q-Former는 두 개의 트랜스포머 서브모듈로 구성되며, 동일한 셀프 어텐션 레이어를 공유한다.
1. Image Transformer(이미지 변환기) : 고정된 이미지 인코더와 상호작용하여 시각적 특징을 추출
2. Text Transformer(텍스트 변환기) : 텍스트 데이터를 인코딩/디코딩할 수 있다.

이미지 변환기는 고정된 이미지 인코더에서 추출한 시각적 특징을 처리하고 학습 가능한 쿼리를 사용하여 이미지의 핵심 정보를 추출한다.

텍스트 변환기는 텍스트와 이미지 데이터를 연결하여 비전-언어 작업을 수행할 수 있도록 돕는다.

쿼리는 학습 가능한 임베딩 벡터로, 이미지 데이터를 탐색하고 필요한 정보를 선택적으로 추출한다.

우리는 학습 가능한 쿼리 임베딩을 이미지 변환기의 입력으로 사용한다.
쿼리는 셀프 어텐션 레이어를 통해 서로 상호작용하며, 크로스 어텐션 레이어를 통해 고정된 이미지 특징과 상호작용한다.

쿼리는 텍스트와도 셀프 어텐션 레이어를 통해 상호작용할 수 있다.
사전 학습 작업에 따라 쿼리와 텍스트 간의 상호작용을 제어하기 위해 다양한 셀프 어텐션 마스크를 적용한다.

셀프 어텐션을 통해 쿼리들끼리 정보를 교환하여 상호작용한다.

Q-Former에서 이미지 특징 또는 텍스트 토큰 사이의 의존성을 학습하여 텍스트와 이미지 정보를 통합하는 데 활용

교차 어텐션을 통해 이미지 인코더에서 추출한 시각적 특징을 쿼리와 연결한다.

이미지의 시각적 특징 중 텍스트와 가장 관련성 높은 정보를 추출한다.

어텐션 마스크 전략은 작업에 따라 쿼리와 텍스트 간의 상호작용을 제어하는 어텐션 마스크를 사용한다.

이미지의 시각적 정보를 추출하는 과정에서 텍스트 토큰의 영향을 받지 않도록하여 시각적 정보만 추출하도록 한다.
왜? 쿼리가 텍스트 토큰과 상호작용하면, 텍스트 정보가 쿼리에 영향을 주어 이미지 정보를 왜곡할 가능성 존재하기 때문

우리는 Q-Former를 BERTbase의 사전 학습된 가중치로 초기화하며, 크로스 어텐션 레이어는 랜덤으로 초기화 된다.
Q-Former는 총 188M 매개변수를 포함하고 있으며, 쿼리도 모델 매개변수로 간주된다.
실험에서는 32개의 쿼리를 사용했으며, 각 쿼리의 차원은 768이다.
Q-Former의 출력 쿼리 표현 Z의 크기는 고정된 이미지 특징의 크기보다 훨씬 작다.
이 아키텍처는 쿼리가 텍스트와 가장 관련있는 시각 정보를 추출하도록 강제한다.

Q-Former는 BLIP-2의 핵심 모듈로, 고정된 이미지 모델과 고정된 언어 모델 사이에서 이미지 데이터를 텍스트로 변환환하는 역할을 한다.

3.2 Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder(고정된 이미지 인코더로부터 비전-언어 표현 학습 부트스트랩)

표현 학습 단계에서 우리는 Q-Former를 고정된 이미지 인코더에 연결하고, 이미지-텍스트 쌍을 사용하여 사전 학습을 수행한다.
이 단계의 목표는 쿼리가 텍스트와 관련된 시각적 표현을 학습하도록 하는 것이다.

동일한 입력 형식과 모델 매개변수를 공유하는 세 가지 사전 학습 목표를 공동 최적화한다.
각 목표는 쿼리와 텍스트 간의 상호작용을 제어하기 위해 다른 어텐션 마스킹 전략을 사용한다.

Image-Text Contrastive Learning(ITC)

이미지 표현과 텍스트 표현을 정렬하여 상호 정보를 극대화하도록 학습한다.
이는 긍정 쌍의 이미지-텍스트 유사도를 부정 쌍의 유사도에 비해 높이는 방식으로 수행된다.

ITC의 목적은 이미지와 텍스트 간의 상호 정보 극대화이다.
ITC는 이미지와 텍스트 간의 표현을 정렬하여 관련성이 높은 경우에는 유사도를 높이고, 관련성이 낮은 경우에는 유사도를 낮추도록 모델을 학습시킨다.

긍정 쌍은 이미지와 그 이미지에 해당하는 텍스트를 한 쌍으로 묶어 학습한다.

"고양이 이미지"와 "고양이가 선글라스를 쓰고 있다"라는 텍스트는 긍정 쌍이다.

부정 쌍은 관련이 없는 이미지와 텍스트 쌍을 구성한다.

"강아지 이미지"와 "고양이가 선글라스를 쓰고 있다"라는 텍스트는 부정쌍이다.

ITC를 통해 모델이 시각적 정보를 독립적으로 학습하면서도 텍스트와의 관계를 반영할 수 있도록 한다.

이미지 변환기에서 나온 쿼리 출력 표현 Z와 텍스트 변환기의 출력 표현 t를 정렬한다.
여기서 t는 [CLS]토큰의 출력 임베딩이다.
Z는 여러 쿼리 출력 임베딩을 포함하기 때문에, 각 쿼리 출력과 t 간의 유사도를 계산하고, 가장 높은 값을 이미지-텍스트 유사도로 선택한다.

Q-Former의 출력 쿼리 임베딩 Z와 텍스트 변환기의 출력 표현 t 간의 유사도를 계산한다.
여러 쿼리 임베딩이 존재하므로, 각 쿼리 임베딩과 텍스트 표현 간의 유사도를 개별 적으로 계산한 뒤, 가장 높은 유사도를 선택하여 해당 이미지와 텍스트 간의 유사도로 간주한다.

정보 누출을 방지하기 위해 쿼리와 텍스트가 서로 볼 수 없도록 하는 단일 모달 셀프 어텐션 마스크를 사용한다.
고정된 이미지 인코더를 사용하므로, 종단 간 방법과 비교하여 GPU당 더 많은 샘플을 처리할 수 있다.

ITC는 이미지와 텍스트 간의 관계를 학습하여 유사한 쌍의 유사도를 높이고, 관련 없는 쌍의 유사도를 낮춘다.

Image-grounded Text Generation (ITG)

쿼리 변환기를 학습시켜 입력 이미지에 기반한 텍스트를 생성할 수 있도록 한다.

ITG는 모델이 이미지를 기반으로 텍스트를 생성할 수 있도록 학습하는 과정을 설명한다.(모델이 이미지에서 필요한 정보를 정확히 추출하고, 이를 텍스트로 표현하도록 돕는 과정)
ITG는 이미지와 텍스트를 연결하는 중요한 단계로, 이미지 데이터를 분석하여 텍스트로 변환하는 능력을 향상시키는 데 초점이 맞춰져 있다.

Q-Former의 아키텍처는 고정된 이미지 인코더와 텍스트 토큰 간의 직접적인 상호작용을 허용하지 않기 때문에, 텍스트 생성을 위해 필요한 정보는 쿼리에 의해 먼저 추출되고, 그런 다음 셀프 어텐션 레이어를 통해 텍스트 토큰으로 전달되어야 한다.
따라서, 쿼리는 텍스트와 관련된 모든 정보를 캡처할 수 있는 시각적 특징을 추출하도록 강제된다.

Q-Former는 이미지 인코더에서 추출된 시각적 정보를 기반으로, 텍스트를 생성하기 위해 필요한 특징을 쿼리를 통해 처리한다.
왜?Q-Former와 고정된 이미지 인코더는 직접적으로 텍스트 토큰과 상호작용하지 않는다.

어텐션 마스크 : 이미지의 시각적 정보를 추출하는 과정에서 텍스트 토큰의 영향을 받지 않도록하여 시각적 정보만 추출(왜곡 위험)

대신 쿼리가 이미지 데이터를 텍스트와 관련된 중요한 정보로 요약한다.

추출된 정보는 쿼리의 셀프 어텐션 레이어를 통해 텍스트 토큰으로 전달된다.
텍스트 토큰은 이전 텍스트 토큰들과 쿼리에서 추출된 정보를 결합하여 텍스트를 생성한다.

다중 모달 인과적 셀프 어텐션 마스크를 사용하여 쿼리-텍스트 상호작용을 제어한다.
쿼리는 서로를 볼 수 있지만 텍스트 토큰은 볼 수 없다.
각 텍스트 토큰은 모든 쿼리와 이전 텍스트 토큰을 볼 수 있다.

ITG는 정보 전달 경로로 이미지를 기반으로 텍스트를 생성할 때 필요한 정보를 쿼리가 효율적으로 추출하고, 고정된 이미지 인코더와 텍스트 토큰이 직접적으로 연결되지 않으므로, Q-Former가 핵심 정보만 전달하는 역할을 한다.

이미지에서 유용한 정보를 추출하고 이를 텍스트로 변환하는 능력을 강화한다.
ITC에서 발전하여 생성작업을 수행할 수 있는 기반을 제공

Image-Text Matching (ITM)

이미지와 텍스트 표현 간의 세밀한 정렬을 학습한다.
ITM은 이미지-텍스트 쌍이 긍정 쌍인지 부정 쌍인지를 예측하는 이진 분류 작업이다.

양방향 셀프 어텐션 마스크를 사용하여 모든 쿼리와 텍스트가 서로 상호작용할 수 있도록 한다.
따라서 출력 쿼리 임베딩 Z는 멀티 모달 정보를 캡처하게 된다.

ITM은 주어진 이미지와 텍스트가 서로 일치하는지 여부를 학습하는 이진 분류 작업을 다룬다.
이미지가 텍스트와 서로 연관이 있는지 판단하는 것을 목표로 연관 여부를 판단하기 위해 이미지와 텍스트의 표현을 통합하여 처리한다.

양방향 셀프 어텐션 마스크로 모든 쿼리와 텍스트가 서로를 볼 수 있게하여 이미지와 텍스트 간의 관계를 더 깊이 이해하도록 만들고 Q-Former의 출력쿼리 임베딩 Z는 멀티 모달 정보를 캡처한다.

ITM은 이미지와 텍스트 간의 단순한 유사도 계산을 넘어서, 두 모달리티 간의 깊은 연관성을 학습하도록 한다.

ITC(이미지-텍스트 대조 학습)와 ITG(이미지 기반 텍스트 생성)는 ITM과 상호 보완적인 역할을 한다

ITC는 전반적인 유사도 정렬을 학습한다.

ITG는 이미지를 기반으로 텍스트를 생성하는 능력을 학습한다.

ITM은 이미지와 텍스트 간의 정밀한 매칭을 학습하여, 두 과제에서 더 세부적인 성능을 가능하게 한다.

3.3 Bootstrap Vision-to-Language Generative Learning from a Frozen LLM(고정된 언어 모델로부터 비전-언어 생성 학습)

생성 학습 단계에서, Q-Former를 고정된 대규모 언어 모델에 연결하여 LLM의 생성 언어 능력을 활용한다.
우리는 완전 연결 층(Fully-connected)층을 사용하여 쿼리 출력 임베딩 Z를 LLM의 텍스트 임베딩과 동일한 차원으로 선형 변환한다.
이 쿼리 임베딩은 입력 텍스트 임베딩 앞에 배치된다.
이 쿼리 임베딩은 LLM이 Q-Former로부터 추출된 시각적 표현에 조건화되도록 하는 소프트 비주얼 프롬프트로 작동한다.

쿼리 출력 임베딩은 Q-Former는 이미지 인코더에서 추출된 시각적 정보를 사용하여 생성된다.
생성된 쿼리 임베딩은 LLM에 입력되기 전에 완전 연결 층을 통해 LLM의 텍스트 임베딩 차원과 맞춰진다.
변환된 쿼리 임베딩은 LLM이 시각적 정보를 언어 표현으로 조건화할 수 있도록 돕는다.

Q-Former는 언어 정보가 포함된 시각적 표현을 추출하도록 사전 학습되었기 때문에, 정보 병목으로 효과적으로 작동하며, LLM에 가장 유용한 정보를 제공하면서 관련 없는 시각적 정보는 제거한다.
이는 LLM이 비전-언어 정렬을 학습해야 하는 부담을 줄여주어 망각 문제를 완화한다.

LLM 유형 별에 따라 2가지 실험을 한다.

디코더 기반 LLM : 언어 모델링 손실을 사용하여 학습하며 고정된 LLM은 Q-Former에서 추출된 시각적 표현에 조건화된 상태에서 텍스트를 생성하는 임무를 수행한다.

LLM은 Q-Former로부터 전달된 시각적 표현을 입력으로 받고, 이에 기반하여 텍스트를 예측

인코더-디코더 기반 LLM : 프리픽스 언어 모델링 손실을 사용하여 학습하며 텍스트를 프리픽스 텍스트, 서픽스 텍스트로 나눈다.

프리픽스 텍스트 : 시각적 표현과 결합하여 LLM의 인코더 입력으로 사용된다.(Q-Former에서 전달된 시각적 표현과 함께 LLM의 인코더로 입력됨)
서픽스 텍스트 : LLM의 디코더가 생성해야 하는 목표 텍스트로 사용된다.
(LLM의 디코더에서 생성해야 할 텍스트로 사용된다.)

Q-Former를 통해 LLM의 입력을 전처리하기 때문에 LLM의 구조를 변경하지 않고도 시각적 정보를 언어 모델에 통합할 수 있다.

3.4. Model Pre-training

BLIP-2가 고정된 이미지 인코더와 고정된 언어 모델을 사용하여 효율적으로 사전 학습을 수행하는 방법 설명

Pre-training data(사전 학습 데이터)

우리는 BLIP에서 사용된 것과 동일한 사전 학습 데이터를 사용하며, 총 1억 2,900만 개의 이미지로 구성된다.
우리는 CapFilt방법을 채택하여 웹 이미지에 대한 합성 캡션을 생성한다.

Pre-trained image encoder and LLM(사전 학습된 이미지 인코더와 LLM)

고정된 이미지 인코더는 다음 두 가지 최신 사전 학습된 비전 트랜스포머 모델을 사용한다.

CLIP의 ViT-L/14.
EVA-CLIP의 ViT-g/14.

우리는 ViT의 마지막 레이어를 제거하고, 끝에서 두 번째 레이어의 출력 특징을 사용하여 약간 더 나은 성능을 얻는다.
고정된 언어 모델로는 디코더 기반 LLM의 경우 OPT 모델 패밀리, 인코더-디코더 기반 LLM의 경우 FlanT5 모델 패밀리를 탐구한다.

Pre-training settings(사전 학습 설정)

1단계는 250,000 스텝, 2단계는 80,000 스텝 동안 사전 학습을 진행한다.
1단계에서는 ViT-L/ViT-g에 대해 2320/1680의 배치 크기를, 2단계에서는 OPT/FlanT5에 대해 각각 1920/1520의 배치 크기를 사용한다.

사전 학습 중에는 고정된 ViT와 LLM의 매개변수를 FP16으로 변환한다.
고정된 모델을 사용하기 때문에, 우리의 사전 학습은 기존 대규모 비전-언어 학습 방법보다 계산 비용이 낮다.

Q-Former가 고정된 이미지 인코더와 학습하여 시각적 표현을 텍스트와 정리
Q-Former가 고정된 LLM과 학습하여 비전-언어 생성 작업을 수행

pre-training hyper-parameters(최적화 및 파라미터)

모든 모델에 대해 동일한 사전 학습 하이어파라미터를 사용한다.(AdamW옵티마이저를 사용)

1단계: 비전-언어 표현 학습
Q-Former는 고정된 이미지 인코더로부터 시각적 특징을 입력받아, 텍스트와 연관된 시각적 표현을 학습한다.(Q-Former가 텍스트와 관련된 시각적 정보를 효과적으로 추출할 수 있도록 학습)

이미지-텍스트 대조 학습(ITC)

이미지와 텍스트 쌍의 표현이 잘 정렬되도록 학습한다.

이미지를 기반으로 한 텍스트 생성(ITG)

이미지를 조건으로 텍스트를 생성하는 능력을 학습한다.

이미지-텍스트 매칭(ITM)

이미지와 텍스트가 매칭되었는지 여부를 예측한다.

고정된 이미지 인코더 -> Q-Former -> 텍스트 학습 목표(ITC, ITG, ITM)

이 과정에서 Q-Former는 LLM과의 연결 없이 이미지와 텍스트 간의 관계를 학습한다.

2단계 : 비전-언어 생성 학습
Q-Former는 고정된 이미지 인코더로부터 시각적 정보를 추출하고, 이를 고정된 LLM의 입력으로 전달하고, LLM이 텍스트 생성 작업을 통해 비전-언어 정렬 강화

Q-Former가 추출한 시각적 정보가 LLM의 텍스트 생성을 효과적으로 조건화한다.

디코더 기반 LLM

언어 모델링 손실을 사용

Q-Former가 제공한 시각적 정보를 조건으로 텍스트를 순차적으로 생성

인코더-디코더 기반 LLM

프리픽스 텍스트 : 시각적 정보와 함께 LLM 인코더의 입력으로 사용

서픽스 텍스트 : LLM 디코더가 생성해야 할 텍스트로 사용

고정된 이미지 -> 인코더 -> Q-Former -> LLM(시각적 정보 + 텍스트 프롬프트)
Q-Former는 고정된 이미지 인코더에서 가장 중요한 정보를 추출하여, 소프트 프롬프트(soft prompts) 형식으로 LLM에 전달.