(2024, 08)
computer vision의 세 scenario(= single-image, multi-image, video scenarios) 를 처리할 수 있는 첫 open LMM.
LLaVA-OneVision은 각기 다른 modality/scenario에 걸쳐 transfer learning을 가능케 함.
image에서 video로의 task transfer를 통해 강력한 video understanding과 cross-scenario 능력을 보여줌.
LLM parameterized by : Qwen-2
Vision Encoder parameterized by : SigLIP
Projector parameterized by : 2-layer MLP
모델 선택은 경험적으로
sequence of length 에 대해, target answer 의 probability를 아래와 같이 계산함.
visual signal의 representation은 visual encoding의 성공에 있어 핵심적인 요소.
AnyRes strategy
width , height config의 AnyRes는 이미지를 crop들로 나누며,
각각 (a, b) 형태로 vision encoder에 suitable한 resolution을 가짐.
crop당 개의 token이 있다고 가정하면, visual token의 총 개수는 .
a set of spatial configurations (a, b)는 image를 cropping하는 방법을 정의.
다양한 resolution과 aspect ration를 가진 image를 수용.
이 중 minimum crop 개수가 필요한 구성을 선택함.
(자세한 ablation은 LLaVA-Next 논문 참고하라고 하네.)
제안된 Higher AnyRes strategy
multi-image와 video representation에 적응할 수 있는 유연한 visual representation framework 역할 가능.
single-image
multi-image
video
이 representation configuration은 실험에서 고정된 compute budget으로 capability transfer를 목표로 설계됨.
더 많은 computational resources가 제공된다면, training 및 inference 단계에서 image 또는 frame당 token 수를 증가시켜 성능을 향상 가능.
SoTA proprietary LMMs
Open source LMMs
반면, open research 커뮤니티에서는 일반적으로 각 scenario에 맞춘 모델을 개별적으로 개발하는 경향.
LLaVA-OneVision은 다양한 작업에 걸쳐 SoTA 성능을 보여주고,
cross-scenario task transfer와 composition을 통해 새로운 기능을 선보이며 이 공백을 메우는 것을 목표로 함.
현재까지 알려진 바로는, LLaVA-NeXT-Interleave [68]가 세 가지 vision scenario 모두에서 우수한 성능을 보고한 첫 시도.
뛰어난 성능 잠재력을 가진 다른 versatile(다목적) open LMM으로는 VILA [77], InternLM-XComposer-2.5 [162]가 있음.
large-scale high-quality data training 사용
(model-synthesized knowledge와 다양한 instruction tuning data)
이와 유사하게, 방대한 visual instruction tuning data가 성능을 크게 향상시킬 수 있음을 확인함.