Learning rate: 초기 1,000 스텝 동안 10⁻⁸에서 10⁻⁵로 Linear Warmup, 이후 Cosine Decay로 최소 학습률 0까지 감소
16개의 Nvidia A100(40G) GPU 사용, 학습은 1.5일 내 완료
3. Experimental Results and Analysis
3.1 Zero-shot Evaluation
평가 설정
13개 Held-out 데이터셋에서 InstructBLIP 모델을 평가, Instruction 템플릿은 아래와 같음
비교 대상
기존 SOTA 모델인 BLIP-2 및 Flamingo
결과
모든 데이터셋에서 새로운 Zero-shot SOTA 달성
InstructBLIP은 원래 백본인 BLIP-2를 모든 LLM에서 큰 차이로 능가
Vision-Language Instruction Tuning의 효과 입증
예: InstructBLIP FlanT5XL은 BLIP-2 FlanT5XL 대비 평균 15.0% 상대적 성능 향상
미노출 Task 성능
Video QA 같은 미노출 Task 카테고리에서 최대 47.1% 상대적 향상 (MSRVTT-QA)
시간적 비디오 데이터 학습 없이도 뛰어난 일반화
소규모 모델 성능
4B 파라미터의 InstructBLIP FlanT5XL
80B 파라미터의 Flamingo 대비 6개 공유 평가 데이터셋에서 평균 24.8% 상대적 향상
Visual Dialog 평가
MRR 지표 사용
NDCG 대비 확실한 응답을 선호해 Zero-shot 시나리오에 더 적합
3.2 Ablation Study on Instruction Tuning Techniques
목적
Instruction-Aware Visual Feature Extraction과 Balanced Dataset Sampling의 영향을 조사
결과
Instruction-Aware 제거
모든 데이터셋에서 성능 크게 저하
특히 공간적(ScienceQA) 또는 시간적(iVQA) 시각 추론 데이터셋에서 Q-Former의 Instruction 입력이 정보적 이미지 영역에 주목하도록 유도하므로 성능 저하 심각
정보적 이미지 영역?
주어진 지시(Instruction)에 따라 작업 수행에 가장 관련 있는 이미지의 특정 부분이나 특징을 의미
Instruction-Aware 메커니즘은 Q-Former가 Intruction Text를 활용해 Image Encoder 출력에서 Task 관련 Visual Feature를 선택적으로 추출하도록 유도
이를 제거하면 Task와 무관한 일반적 Feature만 추출되어, 특히 공간적(ScienceQA)·시간적(iVQA) 추론에서 성능이 크게 저하
Balanced Sampling 제거
데이터셋 간 최대 성능 달성 시점이 달라 불안정하고 불균일한 학습
다중 데이터셋의 동기화된 진행 부족으로 전체 성능 저하
3.3 Qualitative Evaluation
정성적 분석
다양한 이미지와 Instruction으로 InstructBLIP의 복잡한 시각 추론 능력 평가
복잡한 추론
시각 장면에서 발생 가능 사건 추론
예: 야자수 같은 시각적 증거로 재난 유형 추정
질문: 현재 장면을 바탕으로 어떤 일이 일어났을 가능성이 있나요?
답변: 이미지의 현재 장면을 바탕으로, 허리케인이나 심각한 기상 현상이 해당 지역의 건물과 인프라에 큰 피해를 입혔을 가능성이 있습니다. 잔해로 뒤덮인 지역을 걷고 있는 사람은 재난으로 인한 피해를 점검하고 있는 것으로 보입니다. 야자수의 존재는 이 지역이 허리케인이나 기타 자연재해에 취약한 열대 또는 아열대 지역일 가능성을 시사합니다.
지식 연결
시각 입력과 내재된 텍스트 지식을 연결
예: 유명 그림 소개
질문: 이 그림을 자세히 소개해주세요.
답변: 이 그림은 "진주 귀걸이를 한 소녀" 또는 "진주 귀걸이의 소녀"로 알려진 작품으로, 푸른 드레스를 입은 젊은 소녀를 묘사합니다. 소녀는 왼쪽 귀에 진주 귀걸이를 착용하고 있으며, 머리는 뒤로 묶어 올린 번 스타일입니다. 그녀는 관람자를 직접 바라보고 있습니다. 이 그림은 네덜란드 화가 요하네스 베르메르(Johannes Vermeer)가 1665년에 그린 유명한 작품으로, 그의 걸작 중 하나로 평가받습니다. 소녀의 얼굴 표정의 사실적 묘사와 정교한 디테일로 널리 인정받는 작품입니다.
분위기 이해
시각 이미지의 비유적 함축 이해 및 설명
다중 턴 대화
대화 기록을 효과적으로 고려해 응답 생성
비교 분석
GPT4, LLaVA, MiniGPT-4와 비교
InstructBLIP은 시각적 세부사항을 더 정확히 포함하고 논리적 일관성 있는 추론 제공
긴 응답이 항상 적합하지 않음
예: InstructBLIP은 사용자 의도에 맞춰 응답 길이 조정, LLaVA와 MiniGPT-4는 덜 관련성 있는 긴 문장 생성
이점: 다양한 Instruction Tuning 데이터와 효과적인 아키텍처 설계에서 비롯
3.4 Instruction Tuning vs. Multitask Learning
비교 목적
Instruction Tuning의 Zero-shot 일반화 향상이 Instruction 형식화에서 비롯된 것인지, 단순히 Multitask Learning 효과인지 분석
Multitask Learning 설정
Vanilla 입력-출력 형식
Instruction 없이 학습 데이터셋의 원본 형식으로 학습
평가 시 Instruction 제공 (Image Captioning은 이미지 입력만으로 더 나은 성능)
Task Identifier 추가
학습 시 [Task:Dataset] 식별자 추가
예: [Visual Question Answering:VQAv2], Held-out 데이터셋은 Task 이름만 사용
결과
BLIP-2 Zero-shot, Multitask Learning, Instruction Tuning 비교
(BLIP-2 FlanT5XL 백본, 동일 학습 설정)
Held-in 데이터셋
Instruction Tuning과 Multitask Learning 성능 유사, 모델이 두 입력 패턴에 비슷하게 적응
Held-out 데이터셋
Instruction Tuning이 Multitask Learning 대비 큰 성능 향상, Multitask Learning은 원래 BLIP-2와 동등
결론
Instruction Tuning이 Zero-shot 일반화 능력 향상의 핵심
3.5 Finetuning InstructBLIP on Downstream Tasks
설정
InstructBLIP을 특정 데이터셋에 Fine-tuning해 성능 조사
기존 방법(Flamingo, BLIP-2)은 입력 이미지 해상도 증가 및 시각 Encoder Fine-tuning