간단한 수정을 통해 성능 향상data-efficient한 학습 장점 도 유지하면서)너무 TMT(Too Much Talker)라서 문제real-life visual conversation task를 잘함너무 대답이 짧아서 문제Q: {Question} A: {Answer}. 와 같은 단순한 형태의 prompt를 사용했는데, "단일 단어나 문구를 사용하여 질문에 답변하세요." 문구를 prompt에 추가.(formatting)

GQA 데이터셋을 추가ShareGPT 데이터를 추가적절한 Instructization을 통해 변형하여 학습시켜 task에 따라 적절한 정답을 낼 수 있도록 했다.이미지의 세부 영역에 대한 설명과 이를 기반으로 한 질문-응답 데이터셋.특정 이미지 내 객체를 지칭하는 문장을 통해 해당 객체를 식별하는 데이터셋.
동일한 사전 학습 데이터셋을 사용Data EfficiencyHallucination image resolution이 높아지면 -> hallucination이 크게 감소한다는 것을 확인Compositional Capabilities