
해당 내용은 이용재 교수님의 Invited Talk: Next Steps in Generalist Multimodal Models 에 참석하여 정리한 내용입니다
Prevailing Paradigm
Specialist Models : Single Model - Single Task
(Detection Only)
Can I print my documents? 와 같은 문제를 SM 로 어떻게 해결할 수 있는가? 이런 문제들을 잘 해결하지 못한다
Generalist Foundation Models : Single Model - Multi Task
! Steerable(Aligned) models that produce desirable outputs for wide concept knowledge
Understand Visual Data
Follows Human Instructions
Communicates in natural Language
Q : <Vision language models are blind> 논문
기존의 VLM 벤치마크는 주로 고차원적인 시각 이해 능력을 평가하는 데 초점을 맞추고 있습니다. 그러나 BlindTest는 기본적인 시각적 인식 능력을 평가하는 첫 번째 벤치마크로, VLM이 단순한 시각적 과제에서 어떤 한계를 가지는지를 명확히 보여줍니다.
어떤 점을 보완?
모델의 능력
Strong Visual Reasoning Capability
Emergent Multilingual Capability
Key : 모델을 더 좋게 만들려면
1. 모델의 파라미터 수 증가 (크기 증가)
2. 데이터 수 증가 (Scale Up)
3. Image Input Resolution 증가
LLaVA that understands visual prompt
Can we make it ?
-> ViP LLaVA : Understanding Freeform Visual Prompts
Prior/Concurrent Work
Visual Prompt Annotation 을 Overlay 해서 하나의 이미지로 합쳐서 Visual Prompt 로 넣어주는 방법

교수님왈 : 주변 랩실에서 ICCV 에 이런 Visual Prompt 관련 논문을 제출했었다. 해당 아이디어 발전
( 학습이나 실험에 활용하는 데이터는 어떻게 구성하였는지? 이런 데이터가 원래 존재하긴하는데 Elipse 같은 없는 조건에 대한 이미지는 휴리스틱하게 그냥 만들어서 사용했다)
Visual Prompt Understanding Benchmark 도 만들었다
Your Personalized LMM

Bottleneck of Current Multimodal Models
Quadratic 하게 증가하는 token 에 대한 문제가 항상 존재
Video 를 입력으로 받게 된다면 1초당 Image 개수가 기하급수적으로 늘어나기 때문에 이런 문제가 더더욱 심화된다
-> Long HD Video 와 같이 token 이 너무 많으면 Model 이 distract 될 수 있지 않냐
Inspiration 을 어떻게 받았냐?
Matryosha Learning 에서는 Feature Space Embedding 에서 활용하는 그런 것에서 Inspiraton 을 받아서 Token space 에서 진행을 해봤다


다른 Token set 으로 학습하면서 Regularization - Augmentation 이 되지 않았나 이런 영향도 있을 것?
어떤 Token 을 고르는 것이 효율적인지 Adaptive 하게 선택할 수 있는 모델에 대한 연구가 필요하지 않나
Looking forward : Is visual Understanding Solved?
Generalist 모델이 Special 한 task 를 잘 해결하지 못하는 문제점은 항상 고민해야함
From specialist to generalist 가 가장 크게 연구하고 있는 방향성
LLaVA-Next Interleaved 와 같은 Video Model 에 대한 질문
디테일한 부분을 어떻게 수정하고 개선하고 이런 문제보다는 전반적으로 아직 Video Model 에 대해서는 연구가 부족하다는 의견
복잡한 비디오 데이터에 대해서 잘 연구를 못하고 있기 때문에 해결해야할 문제 중 하나
Image 생성 모델에서 Text 만을 입력으로 받는 것은 매우 아쉽다
Visual Prompt 를 충분히 받는 것 또한 중요한 문제이기 때문에 Conditioning 이나 Prompt 의 입력 확장 또한 꼭 필요하다
Foundation model 을 따라가지 못하는 이 상황을 어떻게 해결하고 있는지?
Sora 같은 건 절대 못함 Video 가 어마무시하게 많아야하기 때문에 그것 부터 불가능한 Setup
Smaller Model 만드는 것이 연구실 단위에서는 충분히 가능한 분야이자 필요한 방향성 중 하나라고 생각한다.
PEFT LoRA 같은 것도 사실 Academic 에서 하기 좋은 분야이다
어느정도 HW 는 있어야한다는 기본적인 조건은 존재한다.