LLaVa-NeXT

YEOM JINSEOP·2024년 10월 4일

Multi-modal LLMs

목록 보기

3/4

higher input image resolution
- to 4x more pixels.
- allow it to grasp more visual details.
- supports 3 aspect ratios,
  up to 672x672, 336x1344, 1344x336 resolution.
improved visual instruction tuning data mixture
- better visual reasoning and OCR capability
better visual conversation for more scenarios
Efficient deployment and inference with SGLang(framework)

stronger & larger language models
- LLaMA3 (8B), Qwen-1.5(72B, 110B)
새로운 평가 데이터셋인 LLaVA-Bench (Wilder)를 수집 및 개발
- 실생활 시나리오에서 다양한 애플리케이션을 다루기 위해 개선된 multi-modl 기능을 평가.
motivation
- 지난 1월 공개했던 모델은 당시 최고의 LLM인 Yi-34B를 활용.
- 최근 커뮤니티에서는 LLaMA3 및 Qwen-1.5 시리즈와 같이 언어 능력이 강화된 오픈소스 LLM들이 등장.
  동시에, OpenAI GPT-V와 같은 독점 LMM들이 GPT-4와 같은 강력한 LLM의 지원을 받고 있다는 추측도 있음.
- 이로 인해 다음과 같은 질문이 자연스럽게 제기됨.
  강력한 새로운 언어 모델의 도입으로 오픈소스와 독점 LLM 간의 격차가 줄어들면서, 이러한 강력한 LLM들에 의해 구동될 때 오픈소스와 독점 멀티모달 모델 간의 성능 격차도 줄어드는가?