data-efficient한 학습이 가능현재 LMM(Large Multimodal Model)의 여러 문제들을 제시하는 등 여러 insight를 제공너무 TMT(Too Much Talker)라서 문제real-life visual conversation task를 잘함너무 대답이 짧아서 문제Q: {Question} A: {Answer}. 와 같은 단순한 형태의 prompt를 사용했는데, 출력 형식을 명확하게 나타내는 하나의 응답 형식 프롬프트를 사용할 것을 제안"단일 단어나 문구를 사용하여 질문에 답변하세요." 문구를 prompt에 추가.(formatting)
CLIP resolution을 224에서 336으로 높인다.patch 단위로 분할하여 encoding하는 방법을 도입했다. (LLaVA-1.5-HD.)
GQA 데이터셋을 추가ShareGPT 데이터를 추가적절한 Instructization을 통해 변형하여 학습시켜 task에 따라 적절한 정답을 낼 수 있도록 했다.이미지의 세부 영역에 대한 설명과 이를 기반으로 한 질문-응답 데이터셋.특정 이미지 내 객체를 지칭하는 문장을 통해 해당 객체를 식별하는 데이터셋.
동일한 사전 학습 데이터셋을 사용Data EfficiencyHallucinationimage resolution이 높아지면 -> hallucination이 크게 감소한다는 것을 확인Compositional Capabilities