
안녕하세요! LLaVA 논문 리뷰 시리즈의 대장정을 마무리하는 마지막 편입니다.
지난 포스팅들을 통해 우리는 LLaVA가 어떻게 데이터를 모았고, 어떤 구조로 만들어졌으며, 어떻게 훈련되었는지 살펴봤습니다. 이제 가장 궁금한 부분이 남았죠.
"그래서, LLaVA가 얼마나 똑똑한데?" 🤔
이번 포스팅에서는 LLaVA의 실제 성적표(실험 결과)를 낱낱이 파헤쳐보고, 연구진이 솔직하게 고백한 한계점(Limitations)까지 깊이 있게 들여다보겠습니다.
📝 논문 정보
- Title: Visual Instruction Tuning (LLaVA)
- Link: https://arxiv.org/abs/2304.08485
연구진은 LLaVA의 능력을 검증하기 위해 두 가지 핵심 질문을 던졌습니다.
이 모델을 평가하기 위해 연구진은 LLaVA-Bench라는 자체 데이터셋을 만들었습니다. 평가 방식이 아주 흥미로운데요, 바로 텍스트 모델인 GPT-4를 심판(Judge)으로 앉혀놓고 채점을 시킨 것입니다.
먼저, 학습 때 사용했던 도메인(COCO)과 유사한 이미지들로 테스트를 진행했습니다.
| Model | Conversation | Detail Description | Complex Reasoning | Overall (Avg) |
|---|---|---|---|---|
| LLaVA | 83.1% | 75.3% | 96.5% | 85.1% |
진짜 실력은 처음 보는 문제에서 나오는 법이죠. 학습 데이터에 없던 뉴스, 야외 풍경, 밈(Meme) 등 완전히 새로운 이미지를 보여줬을 때의 결과입니다.
| Model | Overall Score (vs GPT-4) | 비고 |
|---|---|---|
| LLaVA | 67.3% | 복잡한 추론 항목은 81.7% 달성 |
| BLIP-2 | 38.1% | LLaVA보다 한참 뒤처짐 |
| OpenFlamingo | 19.1% | LLaVA와 비교 불가 |
LLaVA의 진가는 전문 지식이 필요한 ScienceQA 벤치마크에서 더욱 빛납니다. 자연과학, 사회과학, 언어과학 문제를 텍스트 혹은 이미지와 함께 풀어야 하는 까다로운 테스트입니다.
Table 7: Accuracy (%) on Science QA dataset
| Method | NAT | SOC | LAN | IMG | Average |
|---|---|---|---|---|---|
| Human (사람) | 90.23 | 84.97 | 87.48 | 87.50 | 88.40 |
| GPT-4 (Text-only) | 84.06 | 73.45 | 87.36 | 70.75 | 82.69 |
| MM-CoT (Large) | 95.91 | 82.00 | 90.82 | 88.80 | 91.68 |
| LLaVA | 90.36 | 95.95 | 88.00 | 88.00 | 90.92 |
| LLaVA+GPT-4 | 91.56 | 96.74 | 91.09 | 88.99 | 92.53 |
(NAT: 자연, SOC: 사회, LAN: 언어, IMG: 이미지 포함 문제)
"도대체 뭘 먹였길래 이렇게 똑똑해진 걸까요?"
연구진은 데이터의 종류를 바꿔가며 성능 변화를 실험했습니다.
| 데이터 구성 | 성능 변화 (Accuracy %) | 분석 |
|---|---|---|
| Conversation Only | 약 73.8% | 평범한 대화만으로는 똑똑해지기 어렵습니다. |
| Detail + Complex Reasoning | 81.9% | '자세한 묘사'와 '추론'을 배우자 성적이 쑥 오릅니다. |
| All Mixed | 85.1% (Best) | 편식은 금물! 세 가지를 골고루 섞었을 때 시너지가 폭발합니다. |
🔑 핵심: 단순히 데이터 양이 중요한 게 아닙니다. 다양한 유형의 지시(Instruction)를 골고루 섞어서 가르치는 것이 모델의 지능을 높이는 비결이었습니다.
LLaVA는 훈련 과정에서 의도적으로 가르치지 않은 능력들도 보여주며 연구진을 놀라게 했습니다.
물론 LLaVA가 만능은 아닙니다. 논문에서는 아직 해결해야 할 숙제들을 솔직하게 명시했습니다.
LLaVA는 Visual Instruction Tuning이라는 개념을 도입해, "언어 모델에게 시각을 달아주는 가장 효율적인 방법"을 제시했습니다.
[LLaVA가 남긴 유산 3가지]
LLaVA는 현재 우리가 쓰고 있는 GPT-4V나 Gemini 같은 거대 멀티모달 모델(LMM)들이 발전하는 데 아주 중요한 초석이 된 연구입니다. 앞으로 시각 모델들이 얼마나 더 똑똑해질지 기대되지 않나요?
긴 시리즈를 함께 읽어주셔서 감사합니다! 👋