
최근 ChatGPT, Claude 등 대화형 AI의 등장으로 인공지능이 우리 일상에 깊숙이 들어왔습니다. 특히 텍스트뿐만 아니라 이미지까지 이해하고 대화할 수 있는 멀티모달 AI에 대한 관심이 높아지고 있는데요.
오늘은 이런 멀티모달 AI 발전의 중요한 전환점이 된 LLaVA(Large Language and Vision Assistant)에 대해 알아보겠습니다. 2023년 4월 공개된 LLaVA는 어떻게 복잡했던 멀티모달 AI를 누구나 접근 가능한 기술로 만들었을까요?
LLaVA(Large Language and Vision Assistant)는 일반 목적의 시각 및 언어 이해를 위한 종단간 학습이 가능한 멀티모달 모델을 만들기 위해 제안되었습니다. 이는 멀티모달 instruction-following 분야에서의 최초의 시도로, 기존 Vision-Language Model(VLM)들이 복잡한 구현과 제한적 접근성을 가졌던 상황에서, 자동화된 데이터 생성 파이프라인과 단순한 프로젝션 스킴을 통해 효율성을 높이고 완전한 오픈소스 공개를 통해 접근성을 개선하고자 했습니다.
LLaVA는 다음과 같은 측면에서 멀티모달 AI 연구에 기여했습니다:
1. 데이터 생성 파이프라인
2. 단순화된 모델 아키텍처
3. 평가 벤치마크 구축
4. 완전한 오픈소스 공개
LLaVA 이전의 멀티모달 AI 연구는 크게 두 가지 방향으로 진행되어 왔습니다.
태스크 특화 에이전트들은 특정 문제 영역에서 자연어 지시를 따라 연속적인 행동을 수행하는 시스템입니다. 이들은 각자의 도메인에서는 뛰어난 성능을 보이지만, 범용성 측면에서는 한계가 있었습니다.
Vision-Language Navigation(VLN)은 "화장실로 가세요"와 같은 자연어 지시를 받아 실제 환경에서 목적지까지 탐색하는 시스템입니다. 공간 추론과 언어 이해를 효과적으로 결합했지만, 내비게이션 외의 다른 태스크는 수행할 수 없다는 제약이 있었습니다.
InstructPix2Pix는 "하늘을 더 파랗게 만들어주세요"와 같은 텍스트 명령에 따라 이미지를 편집하는 능력을 보여주었습니다. 직관적인 편집이 가능했지만, 이미지에 대한 설명이나 질문 답변과 같은 다른 형태의 상호작용은 지원하지 않았습니다.
Habitat는 시뮬레이션 환경에서 에이전트가 자연어 지시를 받아 다양한 작업을 수행하는 플랫폼입니다. 현실적인 3D 환경에서 체화된 AI를 구현했지만, 시뮬레이션 환경에 제한되어 실제 세계의 다양한 시각적 상황을 처리하기에는 한계가 있었습니다.
이러한 접근법들의 공통적인 특징은 명확한 문제 정의를 통한 강력한 최적화가 가능하다는 점입니다. 하지만 태스크별로 별도의 모델을 구축해야 하고, 일반적인 대화나 추론 능력과의 통합이 어렵다는 구조적 한계를 가지고 있었습니다.
| 모델 | 주요 기능 | 장점 | 한계점 |
|---|---|---|---|
| Vision-Language Navigation | 자연어 지시 기반 환경 탐색 | 공간 추론과 언어 이해 결합, 실제 로봇 적용 가능 | 내비게이션 외 태스크 불가, 범용 대화 능력 부족 |
| InstructPix2Pix | 텍스트 명령 기반 이미지 편집 | 직관적인 이미지 편집, 구체적 편집 지시 수행 | 이미지 편집만 가능, 설명이나 추론 불가 |
| Habitat | 시뮬레이션 환경 상호작용 | 현실적인 환경 시뮬레이션, 체화된 AI 구현 | 시뮬레이션 환경 제한, 일반적 시각 이해 부족 |
오케스트레이션 접근법은 여러 전문 모델들을 조합하여 복합적인 멀티모달 태스크를 해결하려는 시도였습니다. 마치 오케스트라 지휘자가 각 악기의 연주를 조율하듯, 중앙 시스템이 상황에 맞는 적절한 도구를 선택하고 조합하는 방식이었습니다.
Visual ChatGPT는 이 접근법의 대표적 사례로, ChatGPT를 중심으로 다양한 컴퓨터 비전 모델들을 동적으로 연결했습니다. 사용자의 요청에 따라 객체 감지, 이미지 생성, 편집 등의 도구를 적절히 선택하여 활용할 수 있었습니다.
MM-REACT는 멀티모달 추론과 행동을 체계적으로 결합한 시스템으로, 각 단계별로 적절한 모듈을 호출하며 복잡한 문제를 해결했습니다. 예를 들어, "이 사진의 동물이 서식하는 지역의 기후는?"이라는 질문에 대해 객체 인식 → 동물 종 식별 → 서식지 검색 → 기후 정보 조회 순으로 단계적 추론을 수행했습니다.
이런 시스템들의 장점은 기존 모델들의 전문성을 효과적으로 활용할 수 있다는 것이었습니다. 또한 새로운 도구를 추가하거나 교체하는 것이 상대적으로 용이했습니다.
하지만 시스템 복잡도가 급격히 증가한다는 문제가 있었습니다. 각 모듈 간의 데이터 전달과 오류 처리, 그리고 전체적인 일관성 유지가 어려웠습니다. 특히 모듈 간 호출로 인한 응답 지연과 중간 단계에서의 오류 전파가 사용자 경험을 저해하는 요인이었습니다.
| 시스템 | 접근 방식 | 장점 | 한계점 |
|---|---|---|---|
| Visual ChatGPT | LLM과 다양한 비전 도구를 동적 연결 | 다양한 도구 활용 가능, 빠른 프로토타이핑 | 도구 간 연결 복잡성, 응답 지연 증가 |
| MM-REACT | 멀티모달 추론과 행동을 위한 모듈 조합 | 체계적인 추론 과정, 모듈별 전문성 활용 | 모듈 간 일관성 부족, 시스템 복잡도 높음 |
| ViperGPT | 코드 생성을 통한 시각 추론 | 논리적 추론 과정 투명, 복잡한 시각 질문 처리 | 코드 생성 오류 위험, 실시간 상호작용 제한 |
| 모델 | 주요 강점 | 주요 한계 | LLaVA와의 차이점 |
|---|---|---|---|
| Flamingo | Interleaved 이미지-텍스트 처리, 강력한 In-Context Learning | 대화형 지시 따름 부족, 명시적 instruction tuning 미흡 | 맥락 학습 vs 직접적 지시 학습 |
| BLIP-2 | 일반적 시각-언어 표현 학습, 다양한 태스크 적용 가능 | 구조화된 대화 형식 학습 부족, System/User/Assistant 구조 미적용 | 일반 표현 학습 vs 대화 특화 학습 |
| KOSMOS-1 | 멀티모달 대형 언어 모델, 통합된 모달리티 처리 | 지시-응답 형태 학습 제한, 캡션 중심 학습 위주 | 통합 모달리티 vs 명시적 instruction following |
| PaLM-E | 로봇 제어 특화, Embodied AI 구현 | 일반 대화 상황 적용성 제한, 행동 중심 데이터 편향 | 행동 제어 vs 대화형 상호작용 |
| OpenFlamingo | 완전한 오픈소스, 재현 가능한 구현 | 대규모 instruction 데이터 부족, 학습 안정성 문제 | 기본 재현 vs 체계적 instruction tuning |
기존 연구들은 다음과 같은 구조적 한계를 보였습니다:
목표 함수 불일치
대화 형식 일관성 부족
이미지 근거성 약화
재현성 장벽
이러한 기존 연구의 한계들을 바탕으로, LLaVA는 다음과 같은 핵심 아이디어를 제시했습니다:
NLP 분야에서 GPT-3, T5, PaLM 등의 대형 언어 모델에 instruction tuning을 적용했을 때 제로샷/퓨샷 일반화 성능이 크게 향상된 것에 착안하여, 이 방법론을 멀티모달 영역으로 확장했습니다.
복잡한 모듈 조합 대신 CLIP + 선형 프로젝션 + Vicuna의 간단한 구조로 시각과 언어 정보를 통합했습니다.
Phase 1: 시각-언어 정렬
Phase 2: Instruction Tuning
기존 이미지-캡션 쌍을 ChatGPT/GPT-4를 활용해 instruction-following 형식으로 변환함으로써, 고품질 학습 데이터를 효율적으로 확보했습니다.
LLaVA는 멀티모달 AI 연구에서 다음과 같은 패러다임 변화를 이끌었습니다:
기술적 측면
연구 생태계 측면
산업적 측면
LLaVA는 멀티모달 AI 연구에서 다음과 같은 패러다임 변화를 이끌었습니다:
기술적 측면
연구 생태계 측면
산업적 측면
LLaVA는 복잡하고 접근하기 어려웠던 멀티모달 AI를 누구나 사용할 수 있는 기술로 만든 중요한 연구입니다. "복잡한 문제를 단순하게 해결하자"라는 철학으로 CLIP과 Vicuna를 간단히 연결한 아키텍처, 그리고 완전한 오픈소스 공개를 통해 많은 후속 연구의 기반이 되었죠.
특히 GPT-4 수준의 85% 성능을 달성하면서도 누구나 재현할 수 있게 만든 점은 학계와 업계 모두에게 큰 영감을 주었습니다.
앞으로도 LLaVA가 제시한 방법론은 멀티모달 AI 발전의 핵심 기반이 될 것으로 보입니다. 다음 글에서는 LLaVA의 구체적인 모델 아키텍처와 학습 과정을 더 자세히 살펴보겠습니다.
비주얼 지시 튜닝(Visual Instruction Tuning)
이미지 + 질문/지시 → 정답/설명을 지도 미세조정(SFT)으로 학습하여, 모델이 대화 문법과 지시 따름 습관을 몸에 익히게 하는 것.
→ LLaVA의 Stage 2가 여기에 해당.
비주얼 프롬프트 튜닝(Visual Prompt Tuning)
파라미터 효율에 초점. 큰 모델의 본체를 거의 건드리지 않고, 작은 프롬프트/어댑터만 학습해 도메인 적응.
→ 목표가 행동 양식(지시 따름) 정렬이 아니라 적응 비용 절감.
고해상도 처리(High-Res / Multi-Crop / Region Focus)LLaVA의 데이터 생성 파이프라인에서는, 교사(GPT-4/ChatGPT)에게 몇 개의 예시 프롬프트를 제공해 일관된 지시-응답 데이터를 자동 생성(ICL 활용)합니다.
https://velog.io/@jsy7058/reviewllava2
언제든 궁금한 점이나 다뤄주길 원하는 AI 논문이 있다면 댓글이나 메일로 말씀해주세요! 다루어볼게요.