
이 섹션은 EmoVIT의 핵심적인 혁신 중 하나로, 시각 감정 인식 분야의 주석이 달린 명령 데이터 부족 문제를 해결하기 위해 GPT-4 [3]를 활용하여 명령 데이터를 자동 생성하는 파이프라인이다.
단계별 프로세스:
입력 이미지 (Input Image): 감정 명령 데이터를 생성할 원본 이미지가 입력된다.
GPT-4.0 활용: GPT-4 [3]는 이미지 관련 세 가지 주요 맥락 정보를 입력으로 받아 감정 명령 데이터를 생성한다.
캡션 (Caption): 이미지의 전반적인 내용을 설명하는 텍스트 캡션. BLIP2 [4] 모델로 생성.
감정 속성 목록 (Emotion Attributes): 이미지에서 감정을 식별하는 데 중요한 시각적 단서들을 포함하는 속성 목록이다. 이는 다음과 같은 다중 레벨 속성을 통합한다.
시스템 프롬프트 (System Prompt): GPT-4 [3]가 특정 작업 요구 사항을 이해하도록 돕기 위해 설계된 지침이다.
In-context Samples: GPT-4 [3]의 소수 학습(few-shot learning) 능력을 활용하기 위해 수동으로 설계된 몇 가지 예제들이다.
감정 명령 (Emotion Instruction) 생성: GPT-4 [3]는 위 정보들을 바탕으로 세 가지 유형의 명령 데이터를 생성한다.
범주형 (Categorical): 이미지의 관련 감정 클래스를 구조화된 형식으로 변환한 것으로, 감정 명령 데이터의 기본 구성 요소이다.
대화형 (Conversation): GPT [3] 조수가 질문자와 대화하며 이미지의 감정 속성에 초점을 맞춘다.
기본 상호작용 (Basic Interaction): 제공된 감정 속성 목록에 초점을 맞춘 간단하고 직접적인 대화이다.
고급 상호작용 (Advanced Interaction): 기본 유형을 기반으로 더 복잡하고 정교한 대화이다.
추론 (Reasoning): 단순한 질문-답변 형식을 넘어 복잡한 추론 질문을 생성하도록 모델에 요청한다. 이는 대화의 신뢰성과 구조를 향상하기 위해 논리적 추론 단계와 함께 상세한 예제를 포함한다.
Q: "Based on the visual cues, what specific elements in the image contribute most to the overall feeling of contentment, and how do they interact?"
A: "The high brightness and colorfulness of the sky and beach scene create a positive atmosphere. The facial expression of contentment and the action of laughing by the baby, combined with being playfully lifted by an adult, strongly indicate joy and contentment. These elements collectively suggest a happy and carefree moment, reinforcing the emotion."
생성된 감정 시각 명령 데이터를 활용하여 기존의 시각 명령 튜닝 모델을 감정 이해 도메인에 맞게 개선하는 과정이다. 이 아키텍처는 InstructBLIP [8]을 기반으로 구축되었다.
입력 이미지 (Input Image) 처리:
이미지 인코더 (Image Encoder): 입력 이미지에서 시각적 특징을 추출한다. 이 이미지 인코더는 학습 중에 고정된 상태를 유지한다. ViT-G/14 혹은 ViT/L-14를 사용한다.
이미지 임베딩 (Image Embeddings): 이미지 인코더를 통해 추출된 시각적 특징이다.
Q-Former 모듈 (Q-Former Module): InstructBLIP [8]의 Instruction-aware Q-Former 모듈을 활용한다. 이 모듈은 감정 명령에 특화된 태스크 관련 특징 추출을 강화한다.
입력: 감정 명령(Emotion Instruction)과 쿼리(Queries), 그리고 이미지 임베딩(Image Embeddings)을 입력으로 받는다. 쿼리는 InstructBLIP [8]의 사전 학습된 Q-Former에서 생성된 학습 가능한 쿼리이다.
기능: 내부적으로 Self Attention 및 Cross Attention 레이어를 통해 감정 명령 및 쿼리 임베딩과 시각 정보를 통합한다. 이를 통해 LLM의 명령 수행 요구 사항에 맞춰 시각 정보를 정렬한다. Q-Former는 학습 가능한 부분으로, 이 논문에서 미세 조정된다.
LLM (Large Language Model): Q-Former를 통해 처리된 시각 정보를 받아 명령을 따른다. 이 LLM 또한 학습 중에 고정된 상태를 유지한다. FlanT5-XL, FlanT5-XXL, LLaMA-7B, LLaMA-13B 등 InstructBLIP의 기본 설정을 따른다.
출력 (Output): LLM이 명령에 따라 생성하는 최종 결과이다.


Audio Encoder (오디오 인코더):
Global Encoder (전역 인코더):
모델: EVA (EVA: Exploring the Limits of Masked Visual Representation Learning at Scale)
역할: 비디오의 'peak emotional expression frame'(감정 표현 절정 프레임)에서 얼굴 표정뿐만 아니라 배경 문맥을 포함한 전역적인 시각적 특징을 포착한다.
스펙: ViT(Vision Transformer) 구조를 기반으로 하며, MAE(Masked AutoEncoder) 방식으로 대규모 이미지 데이터셋에 사전 학습된 모델이다. 이 논문에서는 입력 이미지 크기가 448x448 픽셀인 EVA 모델을 사용한다. 이 모델의 가중치 또한 Frozen Weight(동결) 상태로 유지되어, 광범위한 시각적 이해 능력을 활용하면서 특정 감정 학습에 집중하도록 한다.
Local Encoder (지역 인코더):
Temporal Encoder (시간 인코더):
모델: VideoMAE (VideoMAE: Masked Autoencoders Are Data-Efficient Learners for Self-Supervised Video Pre-Training)
역할: 얼굴 시퀀스의 시간적 동역학(temporal dynamics)을 학습하여 얼굴 움직임의 시간적 변화, 즉 동적인 감정 상태 변화를 포착한다. 이는 감정의 흐름이나 강도 변화를 이해하는 데 중요하다.
스펙: VideoMAE는 비디오 데이터를 위한 MAE 모델의 확장 버전이다. 마스크된 비디오 프레임을 예측하는 방식으로 자기 지도 학습을 수행한다. 이 논문에서는 얼굴 영역을 크롭하고 정렬한 후, 16개의 얼굴 이미지를 입력으로 받아 시간적 특징을 생성한다. 이 모델의 가중치 또한 Frozen Weight(동결) 상태로 유지된다.
Tokenizer (토크나이저):
모델: LLaMA 토크나이저 (Llama 2: Open Foundation and Fine-tuned Chat Models)
역할: 텍스트 프롬프트()를 LLaMA 모델이 처리할 수 있는 토큰 시퀀스()로 변환한다. 이는 대규모 언어 모델이 텍스트를 이해하고 처리하는 데 필수적인 단계이다.
스펙: SentencePiece (Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing) 기반의 BPE(Byte-Pair Encoding) 모델을 사용한다. BPE는 자주 나타나는 문자열 쌍을 하나의 새로운 토큰으로 병합하여 어휘 크기를 효율적으로 관리하고 희귀 단어를 처리하는 데 강점을 보인다. 이를 통해 오픈 보캐뷸러리(open vocabulary) 문제를 해결하고 효율적인 텍스트 처리를 가능하게 한다.
LLaMA2 (대규모 언어 모델):
모델: LLaMA2-chat (7B) (Llama 2: Open Foundation and Fine-tuned Chat Models)
역할: 각 인코더를 통해 변환된 오디오 토큰, 시각 토큰, 그리고 텍스트 토큰을 통합하여 감정 인식 및 추론을 수행하는 핵심 언어 모델이다. 다중 모달 정보를 기반으로 질의응답, 설명 생성 등 다양한 감정 관련 작업을 처리한다.
스펙: LLaMA2는 Meta에서 개발한 대규모 언어 모델로, "7B"는 약 70억 개의 파라미터를 가진 모델임을 의미한다. Transformer 아키텍처를 기반으로 하며, 대규모 텍스트 데이터에 사전 학습되어 강력한 언어 이해 및 생성 능력을 가지고 있다. Emotion-LLaMA에서는 LLaMA2의 주요 가중치는 Frozen Weight(동결) 상태로 유지된다. 이는 사전 학습된 언어 지식을 보존하면서, LoRA(LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention)를 통해 감정 관련 특정 지식을 효율적으로 학습하도록 한다. LoRA는 LLaMA2 모델 내의 쿼리() 및 값() 투영 행렬을 미세 조정하며, 이때 낮은 랭크의 행렬()을 사용하여 학습 가능한 파라미터 수를 최소화한다. 이 논문에서는 전체 파라미터의 0.495%에 해당하는 3천 4백만 개의 파라미터만 학습시킨다.
