[멀티모달 시리즈] LLaVA - LLaVA 는 왜 나오게 되었나?

JOINSPIRED·2025년 8월 28일
post-thumbnail

LLaVA: 멀티모달 AI의 대중화를 위한 실용적 접근

들어가며

최근 ChatGPT, Claude 등 대화형 AI의 등장으로 인공지능이 우리 일상에 깊숙이 들어왔습니다. 특히 텍스트뿐만 아니라 이미지까지 이해하고 대화할 수 있는 멀티모달 AI에 대한 관심이 높아지고 있는데요.

오늘은 이런 멀티모달 AI 발전의 중요한 전환점이 된 LLaVA(Large Language and Vision Assistant)에 대해 알아보겠습니다. 2023년 4월 공개된 LLaVA는 어떻게 복잡했던 멀티모달 AI를 누구나 접근 가능한 기술로 만들었을까요?


LLaVA는 왜 등장했는가?

LLaVA(Large Language and Vision Assistant)는 일반 목적의 시각 및 언어 이해를 위한 종단간 학습이 가능한 멀티모달 모델을 만들기 위해 제안되었습니다. 이는 멀티모달 instruction-following 분야에서의 최초의 시도로, 기존 Vision-Language Model(VLM)들이 복잡한 구현과 제한적 접근성을 가졌던 상황에서, 자동화된 데이터 생성 파이프라인과 단순한 프로젝션 스킴을 통해 효율성을 높이고 완전한 오픈소스 공개를 통해 접근성을 개선하고자 했습니다.

LLaVA의 핵심 기여

LLaVA는 다음과 같은 측면에서 멀티모달 AI 연구에 기여했습니다:

1. 데이터 생성 파이프라인

  • 기존 이미지-텍스트 쌍을 instruction-following 형식으로 변환하는 자동화된 방법 제시
  • ChatGPT/GPT-4를 활용한 효율적인 데이터 증강 기법

2. 단순화된 모델 아키텍처

  • CLIP(시각 인코더) + Vicuna(언어 디코더)를 선형 프로젝션 레이어로 연결
  • End-to-end Supervised Fine-Tuning을 통한 효율적 학습 방식

3. 평가 벤치마크 구축

  • LLaVA-Bench를 통한 다양한 멀티모달 태스크 성능 측정 도구 제공

4. 완전한 오픈소스 공개

  • 데이터셋, 소스코드, 모델 체크포인트, 데모 시스템 전체 공개
  • 연구 재현성과 확장성 보장

기존 연구들은 어떤 한계가 있었을까?

LLaVA 이전의 멀티모달 AI 연구는 크게 두 가지 방향으로 진행되어 왔습니다.

1. 태스크 특화 End-to-End 에이전트

태스크 특화 에이전트들은 특정 문제 영역에서 자연어 지시를 따라 연속적인 행동을 수행하는 시스템입니다. 이들은 각자의 도메인에서는 뛰어난 성능을 보이지만, 범용성 측면에서는 한계가 있었습니다.

Vision-Language Navigation(VLN)은 "화장실로 가세요"와 같은 자연어 지시를 받아 실제 환경에서 목적지까지 탐색하는 시스템입니다. 공간 추론과 언어 이해를 효과적으로 결합했지만, 내비게이션 외의 다른 태스크는 수행할 수 없다는 제약이 있었습니다.

InstructPix2Pix는 "하늘을 더 파랗게 만들어주세요"와 같은 텍스트 명령에 따라 이미지를 편집하는 능력을 보여주었습니다. 직관적인 편집이 가능했지만, 이미지에 대한 설명이나 질문 답변과 같은 다른 형태의 상호작용은 지원하지 않았습니다.

Habitat는 시뮬레이션 환경에서 에이전트가 자연어 지시를 받아 다양한 작업을 수행하는 플랫폼입니다. 현실적인 3D 환경에서 체화된 AI를 구현했지만, 시뮬레이션 환경에 제한되어 실제 세계의 다양한 시각적 상황을 처리하기에는 한계가 있었습니다.

이러한 접근법들의 공통적인 특징은 명확한 문제 정의를 통한 강력한 최적화가 가능하다는 점입니다. 하지만 태스크별로 별도의 모델을 구축해야 하고, 일반적인 대화나 추론 능력과의 통합이 어렵다는 구조적 한계를 가지고 있었습니다.

모델주요 기능장점한계점
Vision-Language Navigation자연어 지시 기반 환경 탐색공간 추론과 언어 이해 결합, 실제 로봇 적용 가능내비게이션 외 태스크 불가, 범용 대화 능력 부족
InstructPix2Pix텍스트 명령 기반 이미지 편집직관적인 이미지 편집, 구체적 편집 지시 수행이미지 편집만 가능, 설명이나 추론 불가
Habitat시뮬레이션 환경 상호작용현실적인 환경 시뮬레이션, 체화된 AI 구현시뮬레이션 환경 제한, 일반적 시각 이해 부족

2. 모델 오케스트레이션 시스템

오케스트레이션 접근법은 여러 전문 모델들을 조합하여 복합적인 멀티모달 태스크를 해결하려는 시도였습니다. 마치 오케스트라 지휘자가 각 악기의 연주를 조율하듯, 중앙 시스템이 상황에 맞는 적절한 도구를 선택하고 조합하는 방식이었습니다.

Visual ChatGPT는 이 접근법의 대표적 사례로, ChatGPT를 중심으로 다양한 컴퓨터 비전 모델들을 동적으로 연결했습니다. 사용자의 요청에 따라 객체 감지, 이미지 생성, 편집 등의 도구를 적절히 선택하여 활용할 수 있었습니다.

MM-REACT는 멀티모달 추론과 행동을 체계적으로 결합한 시스템으로, 각 단계별로 적절한 모듈을 호출하며 복잡한 문제를 해결했습니다. 예를 들어, "이 사진의 동물이 서식하는 지역의 기후는?"이라는 질문에 대해 객체 인식 → 동물 종 식별 → 서식지 검색 → 기후 정보 조회 순으로 단계적 추론을 수행했습니다.

이런 시스템들의 장점은 기존 모델들의 전문성을 효과적으로 활용할 수 있다는 것이었습니다. 또한 새로운 도구를 추가하거나 교체하는 것이 상대적으로 용이했습니다.

하지만 시스템 복잡도가 급격히 증가한다는 문제가 있었습니다. 각 모듈 간의 데이터 전달과 오류 처리, 그리고 전체적인 일관성 유지가 어려웠습니다. 특히 모듈 간 호출로 인한 응답 지연과 중간 단계에서의 오류 전파가 사용자 경험을 저해하는 요인이었습니다.

시스템접근 방식장점한계점
Visual ChatGPTLLM과 다양한 비전 도구를 동적 연결다양한 도구 활용 가능, 빠른 프로토타이핑도구 간 연결 복잡성, 응답 지연 증가
MM-REACT멀티모달 추론과 행동을 위한 모듈 조합체계적인 추론 과정, 모듈별 전문성 활용모듈 간 일관성 부족, 시스템 복잡도 높음
ViperGPT코드 생성을 통한 시각 추론논리적 추론 과정 투명, 복잡한 시각 질문 처리코드 생성 오류 위험, 실시간 상호작용 제한

기존 대형 멀티모달 모델들의 아쉬운 점들

모델주요 강점주요 한계LLaVA와의 차이점
FlamingoInterleaved 이미지-텍스트 처리, 강력한 In-Context Learning대화형 지시 따름 부족, 명시적 instruction tuning 미흡맥락 학습 vs 직접적 지시 학습
BLIP-2일반적 시각-언어 표현 학습, 다양한 태스크 적용 가능구조화된 대화 형식 학습 부족, System/User/Assistant 구조 미적용일반 표현 학습 vs 대화 특화 학습
KOSMOS-1멀티모달 대형 언어 모델, 통합된 모달리티 처리지시-응답 형태 학습 제한, 캡션 중심 학습 위주통합 모달리티 vs 명시적 instruction following
PaLM-E로봇 제어 특화, Embodied AI 구현일반 대화 상황 적용성 제한, 행동 중심 데이터 편향행동 제어 vs 대화형 상호작용
OpenFlamingo완전한 오픈소스, 재현 가능한 구현대규모 instruction 데이터 부족, 학습 안정성 문제기본 재현 vs 체계적 instruction tuning

공통 문제점 분석

기존 연구들은 다음과 같은 구조적 한계를 보였습니다:

목표 함수 불일치

  • 캡션 생성이나 언어 모델링 위주 학습
  • "지시를 정확히 따르는" 능력에 대한 직접적 최적화 부족

대화 형식 일관성 부족

  • 체계적인 대화 구조(System/User/Assistant) 학습 미흡
  • 적절한 종료 조건(EOS 토큰) 처리 불안정

이미지 근거성 약화

  • 이미지 내용과 텍스트 응답 간 연결 고리 부족
  • Hallucination 현상 증가

재현성 장벽

  • 비공개 데이터셋이나 복잡한 모듈 구조
  • 높은 구현 비용과 기술적 진입 장벽

LLaVA는 이 문제들을 어떻게 해결했을까?

이러한 기존 연구의 한계들을 바탕으로, LLaVA는 다음과 같은 핵심 아이디어를 제시했습니다:

1. NLP Instruction Tuning의 성공 공식 차용

NLP 분야에서 GPT-3, T5, PaLM 등의 대형 언어 모델에 instruction tuning을 적용했을 때 제로샷/퓨샷 일반화 성능이 크게 향상된 것에 착안하여, 이 방법론을 멀티모달 영역으로 확장했습니다.

2. 단순하지만 효과적인 아키텍처

복잡한 모듈 조합 대신 CLIP + 선형 프로젝션 + Vicuna의 간단한 구조로 시각과 언어 정보를 통합했습니다.

3. 2단계 학습 전략

Phase 1: 시각-언어 정렬

  • CLIP과 Vicuna를 고정하고 프로젝션 레이어만 학습
  • 시각 특징을 언어 임베딩 공간에 매핑

Phase 2: Instruction Tuning

  • CLIP은 고정하고 프로젝션 레이어와 Vicuna를 함께 학습
  • 멀티모달 대화, 설명, 추론 능력 습득

4. AI 기반 데이터 생성

기존 이미지-캡션 쌍을 ChatGPT/GPT-4를 활용해 instruction-following 형식으로 변환함으로써, 고품질 학습 데이터를 효율적으로 확보했습니다.


LLaVA가 가져온 변화

LLaVA는 멀티모달 AI 연구에서 다음과 같은 패러다임 변화를 이끌었습니다:

기술적 측면

  • 복잡한 문제를 단순한 방법으로 해결하는 엔지니어링 우수성 입증
  • 효율적인 2단계 학습 방법론 정립

연구 생태계 측면

  • 완전한 오픈소스 공개를 통한 연구 접근성 향상
  • 재현 가능하고 확장 가능한 베이스라인 제공

산업적 측면

  • 상대적으로 적은 자원으로 실용적 멀티모달 AI 구현 가능성 제시
  • 이후 등장한 다양한 상용 멀티모달 모델들의 기술적 토대 마련

의의와 영향

LLaVA는 멀티모달 AI 연구에서 다음과 같은 패러다임 변화를 이끌었습니다:

기술적 측면

  • 복잡한 문제를 단순한 방법으로 해결하는 엔지니어링 우수성 입증
  • 효율적인 2단계 학습 방법론 정립

연구 생태계 측면

  • 완전한 오픈소스 공개를 통한 연구 민주화
  • 재현 가능하고 확장 가능한 베이스라인 제공

산업적 측면

  • 상대적으로 적은 자원으로 실용적 멀티모달 AI 구현 가능성 제시
  • 멀티모달 instruction tuning의 효과성 입증

마무리

LLaVA는 복잡하고 접근하기 어려웠던 멀티모달 AI를 누구나 사용할 수 있는 기술로 만든 중요한 연구입니다. "복잡한 문제를 단순하게 해결하자"라는 철학으로 CLIP과 Vicuna를 간단히 연결한 아키텍처, 그리고 완전한 오픈소스 공개를 통해 많은 후속 연구의 기반이 되었죠.

특히 GPT-4 수준의 85% 성능을 달성하면서도 누구나 재현할 수 있게 만든 점은 학계와 업계 모두에게 큰 영감을 주었습니다.

앞으로도 LLaVA가 제시한 방법론은 멀티모달 AI 발전의 핵심 기반이 될 것으로 보입니다. 다음 글에서는 LLaVA의 구체적인 모델 아키텍처와 학습 과정을 더 자세히 살펴보겠습니다.


용어 카드

“비주얼 지시 튜닝” vs “비주얼 프롬프트 튜닝”
  • 비주얼 지시 튜닝(Visual Instruction Tuning)
    이미지 + 질문/지시 → 정답/설명을 지도 미세조정(SFT)으로 학습하여, 모델이 대화 문법과 지시 따름 습관을 몸에 익히게 하는 것.
    → LLaVA의 Stage 2가 여기에 해당.

  • 비주얼 프롬프트 튜닝(Visual Prompt Tuning)
    파라미터 효율에 초점. 큰 모델의 본체를 거의 건드리지 않고, 작은 프롬프트/어댑터만 학습해 도메인 적응.
    → 목표가 행동 양식(지시 따름) 정렬이 아니라 적응 비용 절감.

ICL(In-Context Learning) vs 제로샷
  • 제로샷: “무엇을 해라”만 말해주고 예시는 없음.
  • ICL(프롬프트 내 예시 학습): “이렇게 해라”까지 예시 k개를 보여주고, 모델이 프롬프트 안에서 패턴을 바로 따라 수행.

LLaVA의 데이터 생성 파이프라인에서는, 교사(GPT-4/ChatGPT)에게 몇 개의 예시 프롬프트를 제공해 일관된 지시-응답 데이터를 자동 생성(ICL 활용)합니다.

고해상도 처리(High-Res / Multi-Crop / Region Focus)
  • : 세밀 객체(소형 객체)OCR은 픽셀이 적어 정보가 쉽게 소실.
  • 방법: 입력 해상도 상향, 멀티-크롭/타일링, 영역 줌-인(Region focus), 멀티스케일 피처 결합.
  • 주의: 메모리·지연 증가 ↔ 성능 향상 사이 트레이드오프를 조정.
커리큘럼 학습(Curriculum Learning)
  • 아이디어: 쉬운 과제 → 어려운 과제 순으로 데이터를 구성해 안정적으로 수렴.
  • 예시: (1) 단일 객체 캡션 → (2) 관계/비교 질문 → (3) 다중 단계 추론.
  • LLaVA 팁: Stage 2 초반에는 설명형/단문 QA 비중을 두고, 이후 복합 추론/카운팅/OCR을 늘리면 안정적.

다음 포스팅

https://velog.io/@jsy7058/reviewllava2


언제든 궁금한 점이나 다뤄주길 원하는 AI 논문이 있다면 댓글이나 메일로 말씀해주세요! 다루어볼게요.

profile
기술과 산업에 대해 궁금한 것들을 함께 이야기 해보고 싶습니다.

0개의 댓글