BLIP-2는 기존 Vision-Language Pre-training(VLP) 모델들이 겪는 두 가지 핵심 한계를 해결하려고 한다:
BLIP-2는 이미지 인코더와 언어 모델(LLM)을 그대로 활용하면서,
그 사이를 “lightweight adapter”로 연결해 효율적이고 강력한 멀티모달 학습을 가능하게 한다는 점이 핵심이다.

BLIP-2의 중심 전략은 아래 세 가지다:
이미지 인코더(예: CLIP 비전 백본, ViT 기반)를 훈련 중에 고정(frozen)하여
복잡한 비전 파라미터 업데이트 비용을 제거한다.
언어 모델(예: OPT, FLAN-T5 등)도 미리 훈련된 LLM을 그대로 사용하며
모델 파라미터 대부분을 고정한다.
이미지 인코더와 LLM 사이에 Query-based Transformer (Q-Former) 라는 작은 모듈을 삽입한다.
이 모듈은 learnable queries를 사용해 이미지 표현을 뽑고,
그 출력만 LLM으로 전달하는 역할을 함.
👉 요약하면:
BLIP-2는 “모든 큰 모델을 훈련하지 않고”,
이미지 → 자연어 생성을 위한 표현을 뽑는 작은 모듈만 학습해서 높은 성능을 얻는 방법이다.
BLIP-2는 세 가지 주요 모듈로 구성된다:
Input Image
↓
Vision Encoder (frozen)
↓
Q-Former (학습됨)
↓
Large Language Model (frozen)
↓
Multimodal Output
이미지나 비디오 프레임을
핵심 역할은 “시각 정보를 언어가 볼 수 있는 형태로 바꾸는 것”.
Q-Former로부터 나온 표현(feature tokens)을 입력받아
LLM 자체 학습 없이도 visual grounding된 언어 생성을 실현한다.
BLIP-2는 다음과 같은 두 단계로 학습한다:
Vision Encoder의 feature에 Learnable Queries를 적용하여
이미지 표현을 뽑는 방법을 학습.

Q-Former를 통해 생성된 vision tokens를 LLM에 입력하고
영어 caption 생성, VQA(visual question answering), image retrieval 등 target task에 맞게 fine-tuning 진행
주의: Vision Encoder와 LLM은 이 entire process에서 동결된다.


BLIP-2은 다음과 같은 멀티모달 벤치마크에서 좋은 성능을 보였다:
Q-Former + frozen LLM 구조 하나로
👉 trainable parameters은 매우 적지만, 멀티모달 이해/생성 성능은 견고하게 유지됨.




BLIP-2는
“현실적인 멀티모달 시스템에서 대규모 비전-언어 사전학습을 효율적으로 정복하기 위한 실용적 접근법”이라고 할 수 있다.
즉,
이 구조는 이후의 여러 멀티모달 모델(예: InstructBLIP, VideoBLIP, LLava 계열)에도 영향을 주었다는 평가를 받는다.
BLIP-2는 frozen vision encoders와 frozen LLM 사이에 lightweight Q-Former를 두어 멀티모달 능력을 효율적이고 강력하게 끌어내는 새로운 VLP 패러다임을 제시한 연구다.