Visual Instruction Tuning (VIT) 정의 및 한계:
VIT는 사전 학습된 언어 모델을 특정 작업 지침을 사용하여 미세 조정하는 새로운 학습 패러다임이다.NLP) 작업에서 유망한 제로샷(zero-shot) 결과를 보였으나, 시각 감정 이해(vision emotion understanding) 분야에서는 아직 탐구되지 않은 영역이었다.EmoVIT의 주요 목표:
핵심 방법론:
InstructBLIP을 기반으로 감정 특정 지침 데이터를 통합하여 Large Language Models (LLMs)의 강력한 기능을 활용, 성능을 향상한다.시각적 감정 인식의 중요성:
기존 대규모 멀티모달 모델의 한계:
EmoVIT의 제안 및 주요 기여:
2.1. Visual Emotion Recognition (시각 감정 인식)
2.2. Visual Instruction Tuning (시각 명령어 튜닝)
기존 방법의 한계점:
새로운 접근 방식의 필요성 및 개척:
감성 인식을 위한 핵심 시각 단서 식별:

GPT-4가 감성 지침 데이터를 생성하는 데 필수적인 세 가지 유형의 이미지 관련 문맥(context)이 입력된다.
(i) Emotion Attributes(): 감정 클래스(예: contentment), 밝기(Brightness), 색상(Colorfulness), 장면 유형(Scene type), 객체 클래스(Object class), 얼굴 표정(Facial expression), 인간 행동(Human action)과 같은 다중 레벨의 감정 속성 목록이다. 이는 감정 해석의 주관성과 모호성을 제거하기 위해 통합된다.
(ii) Caption(): BLIP2 모델을 사용하여 생성된 이미지 캡션이다.
(iii) System Prompt: GPT-4가 특정 작업 요구사항을 이해하도록 설계된 지침. (예: 주어진 이미지를 보고 감정을 분석하라.)
(iv) seed examples(몇 가지 수동으로 설계된 예시): 인-콘텍스트 학습(in-context learning)을 위한 시드 예시로 사용되어 GPT-4에 쿼리된다. 이는 LLaVA와 같은 기존 연구의 'few-shot learning' 원리를 활용하여 모델의 이해도와 응답 정확도를 높인다.

Basic Interaction(단순하고 직접적인 특성)과 Advanced Interaction(더 높은 대화 복잡성)의 두 가지 범주로 나뉜다.
(a) 감정 시각 지시 데이터 생성 (Emotion Visual Instruction Data Generation)
(b) 감정 시각 지시 튜닝 아키텍처 (Emotion Visual Instruction Tuning Architecture)
Emotion Instruction)과 이미지 임베딩(Image Embeddings), 그리고 초기화된 쿼리(Queries)를 입력으로 받아, 주어진 지시에 맞게 이미지에서 관련 특징을 추출하는 학습 가능한 모듈이다. 이 모듈은 감정 지시와 쿼리 임베딩을 Self-Attention 레이어 내에서 통합하여 시각 정보를 LLM의 지시 따르기 요구 사항과 일치시킨다.(c) Q-Former 모듈의 상세 설명 (The Details of Q-Former Module)
Emotion Instruction과 Image Embeddings, Queries 간의 복잡한 상호 작용을 통해 태스크별 특징 추출을 최적화한다.Emotion Instruction과 Image Embeddings의 정보를 순차적으로 융합하여, 감정에 대한 텍스트 정보와 이미지 정보 사이의 도메인 갭을 연결하는 브릿지 역할을 한다.Queries와 Emotion Instruction 토큰들이 서로 간의 관계를 학습하여 내부적인 표현을 강화하는 부분이다. 이를 통해 지시의 의미론적 정보를 쿼리에 주입한다.Image Embeddings와 Self Attention을 통해 강화된 Queries 및 Emotion Instruction이 상호 작용하는 부분이다. 이 과정에서 Q-Former는 주어진 감정 지시에 가장 적합한 시각적 특징을 이미지 임베딩에서 선택적으로 추출한다.