data-efficient한 학습이 가능
현재 LMM(Large Multimodal Model)의 여러 문제들을 제시
하는 등 여러 insight를 제공너무 TMT(Too Much Talker)라서 문제
real-life visual conversation task를 잘함
너무 대답이 짧아서 문제
Q: {Question} A: {Answer}.
와 같은 단순한 형태의 prompt를 사용했는데, 출력 형식을 명확하게 나타내는 하나의 응답 형식 프롬프트를 사용할 것을 제안
"단일 단어나 문구를 사용하여 질문에 답변하세요."
문구를 prompt에 추가.(formatting)CLIP resolution을 224에서 336으로 높인다.
patch 단위로 분할하여 encoding하는 방법을 도입했다. (LLaVA-1.5-HD.)
GQA 데이터셋을 추가
ShareGPT 데이터
를 추가적절한 Instructization을 통해 변형
하여 학습시켜 task에 따라 적절한 정답을 낼 수 있도록 했다.이미지의 세부 영역에 대한 설명
과 이를 기반으로 한 질문-응답 데이터셋
.특정 이미지 내 객체를 지칭하는 문장
을 통해 해당 객체를 식별하는 데이터셋.동일한 사전 학습 데이터셋을 사용
Data Efficiency
Hallucination
image resolution이 높아지면 -> hallucination이 크게 감소한다는 것을 확인
Compositional Capabilities