LLM(GPT-4)를 사용
하여, 멀티모달 언어-이미지 instruction-following 데이터를 생성
하는 방법을 제시함. 데이터 종류는 3가지이미지-text pair dataset
으로 linear projection layer(W) 만 학습instruction-following dataset
으로 linear projection layer(W)와 LLM model fine tuningLLM(GPT-4)를 사용
하여, 멀티모달 언어-이미지 instruction-following 데이터를 생성
하려는 첫 시도를 제시시각 인코더(CLIP)
와 언어 모델(Vicuna 언어 디코더)
을 가져다 쓰고, 거기에사용자 의도 정렬(Alignment) 강화
범용 멀티모달 태스크 확장
일반화 능력(Generalization) 향상
Curriculum Learning 효과
Zero/Few-shot 성능 우수 및 파인튜닝 비용 절감
instruction-following dataset
만들기이미지(Xv)-caption_text(Xc) pair
(image captioning dataset)을 이용해서, instruction following dataset
생성이미지(Xv)
+ Text prompt for question (Xq)
caption_text(Xc)
Text prompt for question (Xq)
: 이미지 token
을 text token
과 align 시키기 위해conversation
/ detailed description
/ complex reasoning
등을 전부 포함한)의 데이터가 추가로 필요!language only GPT
로 데이터를 만들어보자!language-only GPT4를 이용하여 고퀄리티 instruction-following dataset을 생성
이미지에 대한 여러 캡션이 있는 데이터셋을 활용
하여 -> Language-only GPT4가 데이터를 생성하도록 해보자.이미지를 text형태의 설명으로 대체
하여 넣어줍니다.image에 대한 여러 captions
를 사진의 설명으로 GPT에 넣어줍니다.Ask diverse questions and give corresponding answers.
가 포인트!Question-Answer pair
가, 우리가 모은 데이터셋이다!Question-Answer pair
가, 우리가 모은 데이터셋!캡션 및 박스
와 같은 상황을 보여주며, 세 가지 유형의 응답을 제시간단한 방법: image captioning dataset 그대로 활용
참고)를 활용하여, visual tokenizer을 LLM에 호환 가능하도록 W 만 학습language-only GPT4를 이용하여 만든 instruction-following dataset
로 학습!visual instruction following
에 대한 향후 연구를 촉진하기 위해 -> 다양한 응용 지향 작업을 포함하는 두 가지 evaluation benchmarks를 구성