LLaVA는 이미지 인코더가 생성한 시각적 표현을 LLM의 언어 공간에 정렬시켜 입력함으로써, 별도의 복잡한 멀티모달 아키텍처 없이도 이미지 기반 추론과 지시 수행이 가능함을 보인 비전–언어 모델이다.
CLIP 이후 비전–언어 분야의 상황은 다음과 같았다:
이미지와 텍스트를 정렬(alignment)하는 것은 가능
하지만:
즉, 기존 VLM은 대부분:
“보여주고 → 설명하는 모델”
에 머물러 있었다.
반면 LLM은 이미:
을 잘 수행하고 있었다.
LLaVA의 핵심 질문은 이것이다:
“이미지를 잘 ‘이해한 표현’만 LLM에게 넘겨주면,
추론은 굳이 새로 만들 필요가 없는 것 아닐까?”

LLaVA의 구조는 놀라울 정도로 단순하다.
Image → Vision Encoder → Visual Embedding
→ Linear Projection
→ LLM Input Space
Text → Token Embedding ┘
→ LLM (Vicuna / LLaMA)
👉 이미지와 텍스트는 LLM 입력 단계에서만 만난다
LLaVA에서 Vision Encoder는 보통:
가 사용된다.
이 인코더의 역할은 명확하다:
이미지를 “이해”하는 것이 아니라,
LLM이 다룰 수 있는
의미적 표현으로 변환하는 것
즉:
👉 ViT / CLIP에서 우리가 계속 강조한 역할과 정확히 동일하다.
Vision Encoder 출력은:
하지만 LLM은:
LLaVA는 이 간극을:
이 설계는 다음 가정을 전제로 한다:
“CLIP이 만든 시각 표현은
이미 충분히 언어 친화적이다.”
그래서 복잡한 구조가 필요 없다.
LLaVA는 이미지를 이해하지 않는다.
정확히 말하면:
이다.
즉 역할 분담은 다음과 같다:
| 구성 요소 | 역할 |
|---|---|
| Vision Encoder | 이미지 → 의미 표현 |
| Projection | 표현 공간 정렬 |
| LLM | 이해, 추론, 지시 수행 |
👉 이해는 전부 LLM에 위임
이 구조는 우리가 계속 이야기한
“강한 인코더 + 강한 추론기” 패턴의 완성형이다.


👉 시각 표현을 언어 공간에 정렬

중요한 점:
Vision Encoder는 거의 학습하지 않는다

LLaVA는:
를 수행할 수 있다.
하지만 이 능력은:
이미지를 ‘보는 능력’이 아니라
이미지 표현을 조건으로 한
언어적 추론 능력
이다.
즉 LLaVA는:
LLaVA의 inductive bias는 구조에 없다.
| 요소 | 역할 |
|---|---|
| CLIP encoder | 시각 의미 압축 |
| Linear projection | 공간 정렬 |
| Instruction tuning | 행동 규칙 학습 |
👉 Bias는 학습 데이터와 objective에 있다.
이는 BERT / CLIP과 완전히 동일한 철학이다.
👉 이 한계가 이후:
로 이어진다.
LLaVA는 이미지를 이해하는 모델이 아니라, 이미지를 의미적으로 인코딩한 표현을 LLM의 언어 공간에 주입함으로써, 추론과 지시 수행을 전적으로 LLM에 맡기는 인코더 중심 멀티모달 시스템이다.
| 모델 | 핵심 역할 |
|---|---|
| BERT | Text → 의미 표현 |
| ViT | Image → 의미 표현 |
| CLIP | 의미 표현 정렬 |
| LLaVA | 의미 표현 → 추론 |
👉 LLaVA는 이 체인의 ‘사용 단계’를 처음으로 완성한 모델이다.