data-efficient한 학습이 가능
현재 LMM(Large Multimodal Model)의 여러 문제들을 제시
하는 등 여러 insight를 제공너무 TMT(Too Much Talker)라서 문제
real-life visual conversation task를 잘함
너무 대답이 짧아서 문제
Q: {Question} A: {Answer}.
와 같은 단순한 형태의 prompt를 사용했는데, "단일 단어나 문구를 사용하여 질문에 답변하세요."
문구를 prompt에 추가.(formatting)GQA 데이터셋을 추가
ShareGPT 데이터
를 추가적절한 Instructization을 통해 변형
하여 학습시켜 task에 따라 적절한 정답을 낼 수 있도록 했다.이미지의 세부 영역에 대한 설명
과 이를 기반으로 한 질문-응답 데이터셋
.특정 이미지 내 객체를 지칭하는 문장
을 통해 해당 객체를 식별하는 데이터셋.동일한 사전 학습 데이터셋을 사용
Data Efficiency
Hallucination
image resolution이 높아지면 -> hallucination이 크게 감소한다는 것을 확인
Compositional Capabilities