Instruction-following 데이터를 사용하여 LLM을 instruction tuning하는 것은 새로운 작업에 대한 zero-shot 성능을 향상.
텍스트 전용인 GPT-4를 사용하여 멀티모달 언어-이미지 struction-following 데이터를 생성하여 instruction tuning을 진행.
범용 비전 및 언어 이해를 위해 비전 인코더와 LLM을 연결하는,
종단간 학습된 대규모 멀티모달 모델인 LLaVA: Large Language and Vision Assistant.
두 가지 평가 벤치마크 구축.
실험 결과, LLaVA는 멀티모달 채팅 능력이 획기적, 때로는 처음 보는 이미지나 지시에 대해 멀티모달 GPT-4와 행동이 유사.
또한, 합성된 멀티모달 instruction-following 데이터셋에서 GPT-4 대비 85.1%의 상대적 점수를 기록.
Science QA 데이터셋에서 fine-tuning했을 때, LLaVA와 GPT-4의 시너지는 92.53%라는 SOTA 정확도를 달성.
Instruction-following: 명령어를 그대로 따르는 특성
Instruction Tuning: Instruction 데이터셋을 통해 LLM 모델 fine-tuning을 진행하고 이를 통해 zero-shot 성능을 높이는 방법
인공지능의 목표 중 하나는 다양한 실제 작업을 제약 없는 환경에서 수행하기 위해 인간의 의도에 맞춰진 멀티모달 비전-언어 지시를 효과적으로 따를 수 있는 범용 어시스턴트를 개발하는 것.
따라서 분류, 탐지, 분할, 캡셔닝과 같은 개방형 비전 이해에 강력한 기능을 가진 언어 증강 기반 비전 모델, 비전 생성 및 편집 기술 개발에 대한 관심이 급증.
하지만 각 작업은 하나의 단일 대규모 비전 모델에 의해 독립적으로 해결되며, 작업 지시는 모델 설계에 암시적으로 포함.
더불어, 언어는 이미지 내용을 설명하는 데만 사용.
-> 일반 의사소통처럼 언어가 시각 신호를 언어 의미론(language semantics)으로 매핑하는 데 중요한 역할을 할 수 있게 하지만
일반적으로 고정된 인터페이스를 가지며 사용자의 지시(instruction)에 대한 상호작용성과 적응성이 제한적.
<-> 반면, LLM은 범용 어시스턴트를 위한 보편적 인터페이스.
다양한 태스크 지시가 명시적인 언어로 표현, 종단간 학습된 신경망 어시스턴트가 사용자가 원하는 특정 작업으로 전환하여 문제를 해결하도록 유도.
LLaMA는 GPT-3의 성능에 필적.
본 논문에서는 범용 비전 어시스턴트 구축을 위해
instruction-tuning을 언어-이미지 멀티모달 공간으로 확장하려는 첫 번째 시도인
시각 지시 조정(Visual Instruction-tuning)을 제시.
의미론: 의미론은 요소가 특정 위치에 있거나 특정 구조를 띌 때 어떤 의미를 갖냐를 의미.
멀티모달 instruction-follwing 데이터에서 인간이 직접 분류한 데이터를 사용하려면 데이터 생성 과정이 시간이 많이 소요되고 덜 명확.
따라서 데이터 수집을 위해 ChatGPT/GPT-4를 활용.
이미지-텍스트 쌍을 instruction-follwing에 적용하기 위해
Human : Xq Xv<스톱> Assistant : Xc<스톱> 활용.
-> 비용 저렴, 하지만 지시와 응답 모두에서 다양성과 심층적 추론 부족.
-> 시각적 콘텐츠를 포함하는 instruction-follwing 데이터를 생성하기 위해
언어 전용 GPT-4 또는 ChatGPT를 교사로 활용
텍스트 전용 GPT에 프롬프트를 제공하기 위해 이미지를 시각적 특징으로 인코딩하기 위해 두 가지 유형의 기호 표현을 사용, 기호 표현을 통해 이미지를 LLM이 인식할 수 있는 시퀀스로 인코딩.
-> 세 가지 유형의 지시 따르기 데이터를 생성
프롬프트 작성법:
대화 58K개 + 상세 설명 23K개 +복잡한 추론 77K개 => 총 158K개의 언어-이미지 instruction-follwing 샘플 수집.
GPT-4가 더 높은 품질의 instruction-follwing 데이터를 일관되게 제공.

입력 이미지 에 대해, pre-trained CLIP 비전 인코더인 ViT-L/14를 사용하여 시각적 특징 를 얻음.
실험에서는 마지막 트랜스포머 레이어 이전과 이후의 그리드 특징을 모두 고려.
이미지 특징을 단어 임베딩 공간으로 연결하기 위해 단순한 선형 레이어를 사용.
구체적으로, 학습 가능한 프로젝션 행렬 를 적용하여 를 언어 모델의 단어 임베딩 공간과 동일한 차원을 갖는 언어 임베딩 토큰 로 변환.
시각적 토큰 의 시퀀스를 가짐.
경량화되어 있어 실험을 빠르게 반복 가능.

모델은 이미지() 하나에 대해 여러 번의 질문()과 답변()이 오가는 시퀀스를 학습.
첫 번째 턴 (): 질문()과 이미지()의 순서를 무작위로 배치하여 또는 형태로 입력.
이는 모델이 이미지와 텍스트의 선후 관계에 상관없이 정보를 처리.
이후 턴 (): 추가 질문()만 입력값으로.
오토레그레시브(Auto-regressive) 방식으로 다음 토큰을 예측하며, 오직 어시스턴트의 답변() 부분에서만 손실(Loss)을 계산.
1단계: 특징 정렬을 위한 사전 학습
2단계: 종단 간 미세 조정
각 인코더 가중치는 항상 고정, LLaVA 내에서 프로젝션 레이어와 LLM의 사전 학습된 가중치를 모두 계속 업데이트.
즉, 학습 가능한 파라미터는 위 식에서 .
방법:
멀티모달 챗봇과 ScienceQA 데이터셋을 사용하여 LLaVA의 instruction-following 및 시각적 추론 능력을 평가.
LLaVA는 적은 수의 멀티모달 instruction-following 데이터셋(약 80K)으로 학습되었음에도 GPT-4와 상당히 유사.
LLaVA에게는 도메인 외이지만, 장면을 이해하고 질문 지시에 따라 합리적인 응답을 제공 가능.

Text-only GPT-4와 LLaVa로부터 응답을 얻고, 질문, 시각 정보(텍스트 설명 형식), 그리고 생성된 응답을 판정자(Text-only GPT-4)에게 전달한 결과.
벤치마크 1: LLaVA-Bench (COCO).
OCO-Val-2014에서 30개의 이미지를 무작위로 선택
각 이미지에 대해 Sec. 3에 제안된 데이터 생성 파이프라인을 사용하여 대화/상세 설명/복잡한 추론 세 유형의 질문 총 90개의 생성.
벤치마크 2: LLaVA-Bench (In-the-Wild).
어려운 작업과 새로운 도메인에 대한 일반화 가능성을 평가.
한계:

5.2 ScienceQA

LLaVA의 경우, 마지막 레이어 이전의 시각적 특징을 사용, 모델이 먼저 이유를 예측한 다음 답변을 예측, 12 에포크 동안 훈련 -> 성능 SOTA와 근접.
shot in-context-learning을 사용하여 GPT-4에 프롬프트를 제공 -> 성능 향상.
앙상블:
(i) GPT-4 보완.
GPT-4가 답변을 제공하지 못할 때마다, 우리 방법론의 예측을 사용-> 우리 방법론만을 적용했을 때와 동일한 정확도
(ii) GPT-4를 판사로
GPT-4와 LLaVA가 다른 답변을 생성할 때마다
질문과 두 가지 결과를 바탕으로 GPT-4에게 자체 최종 답변을 제공하도록 프롬프트 제공 -> 높은 SoTA 정확도 갱신
본 논문은 시각 instruction tuning의 효과를 입증.
언어-이미지 instruction-following 데이터를 생성하기 위한 자동화된 파이프라인을 제시, 이를 기반으로 인간의 의도를 따라 시각적 작업을 완료하는 다중 모달 모델인 LLaVA를 훈련.
이 모델은 ScienceQA에서 미세 조정될 때 새로운 SoTA 정확도를 달성, 다중 모달 채팅 데이터에서 미세 조정될 때 뛰어난 시각적 채팅 기능을 제공.
또한, 다중 모달 struction-following 능력을 연구하기 위한 최초의 벤치마크를 제시.
본 논문은 시각 instruction tuning의 초기 단계이며 주로 실용적 태스크에 초점.
멀티모달 instruction-following 에이전트:
i) 각 특정 연구 주제에 대해 개별적으로 탐색되는 종단간(end-to-end) 학습 모델
ii) 다양한 모델이 협업하게끔 조정하는 시스템
Instruction Tuning:
기존 모델들은 이미지-텍스트 쌍으로 학습되었을 뿐, 시각-언어 instruction data로 명시적 튜닝을 거치지 않음.
이 때문에 텍스트 전용 모델들에 비해 멀티모달 작업에서의 상호작용 능력이나 복잡한 지시 이행 능력이 상대적으로 떨어짐.
-> 시각 instruction tuning을 연구.
종단간 학습으로 여러 태스크를 처리할 수 있는 멀티모달 모델을 추구.
Instruction-following:
https://co-no.tistory.com/entry/%EA%B0%9C%EB%85%90-%ED%94%84%EB%A1%AC%ED%94%84%ED%8A%B8-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4%EB%A7%81%EC%9D%98-%EA%B0%9C%EB%85%90%EA%B3%BC-LLM-%ED%99%9C%EC%9A%A9-%EC%8B%9C-%EA%BF%80%ED%8C%81
Instruction Tuning:
https://velog.io/@nellcome/Instruction-Tuning%EC%9D%B4%EB%9E%80