Abstract
VX2TEXT는 비디오 기반 텍스트 생성 문제를 다루는 최초의 통합적 접근 방식을 제시합니다. 기존의 텍스트 생성 모델은 주로 이미지 또는 텍스트와 같은 단일 모달리티에 초점을 맞췄으나, 이 연구는 멀티모달 입력(비디오 프레임, 오디오, 텍스트 등)을 활용하여 텍스트를 생성하는 시스템을 구축하는 데 목적이 있습니다.
차이점
- 사전 학습 불필요
- VX2TEXT는 멀티모달 데이터를 공동 언어 공간에서 융합하여, 별도의 사전 학습 X
- 크로스모달 블록 없이도 간단히 설계로 구현 가능
- 텍스트 생성
- VX2TEXT는 기존의 선택형 응답 방식이 아닌, 디코더 기반 학습으로 질문 답변, 대화, 캡셔닝 같은 텍스트 생성 작업에 성능이 좋다.
TechnicalApproach

-
Task
- "Answer", "Caption", "Dialog“ 작업 명시 Task 토큰
-
modality-specific
- 사전 학습된 분류기로 각 입력 데이터를 카테고리 확률로 변환
- 비디오 -> 주요 action 카테고리 확률 출력
- 오디오 -> 주요 사운드 카테고리 확률 출력
-
샘플링과 임베딩
- 카테고리 확률 분포에서 상위 k개의 카테고리를 샘플링
- 샘플링된 카테고리를 사전 학습된 언어 모델에 맞게 변환해 공동 언어 공간에 매핑
-
Speech
- CNN14 네트워크(사전 학습된 오디오 분류 모델)를 통해 음성 신호를 카테고리 확률 분포로 변환
-
Dialog History
- 이전에 생성된 대화 내용이나 질문-응답의 히스토리
- 대화 기록은 이미 텍스트 형식으로 주어지므로, 별도의 신호 처리 과정 없이 그대로 언어 모델에 입력
-
Generated distributions
- 샘플링을 확률적으로 수행하여 비분화 가능성 문제 해결
- 샘플링된 결과는 모달리티 간 의미적 연결을 강화하는 임베딩으로 사용됨
Experiments

- VideoQuestionAnswering
- TVQA 데이터셋 사용
- TV 드라마의 비디오 클립과 해당 대화 스크립트를 기반으로, 다중 선택형 질문에 답변
- 각 질문에는 5개의 후보 답변이 주어짐
- Audio-Visual Scene-Aware Dialog
- AVSD 데이터셋 사용
- 비디오를 본 사람과 보지 않은 사람 간의 대화를 기반으로 질문-응답을 생성
- VideoCaptioning
- TVC 데이터셋 사용
- 비디오 클립과 해당 대화 스크립트를 기반으로 비디오 내용을 설명하는 텍스트

- Discriminative
- 디코더를 제거하고, 인코더에서 추출된 특징 벡터에 분류 헤드를 추가
- 모델은 5개의 후보 답변에 대한 확률 분포를 계산하여, 가장 높은 확률을 가진 답변을 선택
- Generative
- 디코더를 사용해 모델이 직접 텍스트 답변을 생성
- Generative (QA & Generation)
- 주어진 비디오와 질문을 입력으로 받아서 답변을 생성하는 작업
- 비디오 질의 응답(QA):
- 질문 생성:
- 기준 진실 답변(ground-truth answer)을 입력으로 사용해 모델이 질문을 생성
- "The person is cooking dinner" → "What is the person doing in the video?"
- Generative (Cycle-Consistency)
- 질문과 답변 사이의 순환적 일관성을 학습
- 기준 질문 Q → 답변 A′ 생성.
- 생성된 답변 A′ → 새로운 질문 Q′′ 생성.
- 새로운 질문 Q′′ → 새로운 답변 A′′ 생성.
- 최종적으로 A′′와 기준 진실 답변 A 사이의 일관성을 평가.
Conclusions

-
VX2TEXT는 추가적인 멀티모달 사전 학습(pretext training) 없이도,사전 학습에 7.6M 샘플을 사용한 HERO 시스템보다 성능이 우수
-
VX2TEXT는 학습 데이터의 10%만 사용했을 때도 Generative 방식으로 64.1%의 정확도를 기록했고, Discriminative 방식보다 29.9% 더 높은 성능을 보여줌
- Cycle Consistency 학습으로 일관성을 강화해 성능이 더 높아졌기 때문
문제점 정의 및 아이디어(개인 생각)
21년 논문으로 Generation AI가 연구되고 있는 시기에 작성되어 현재에 비해 부족한 점이 있을 것이다. 그렇다고 이 논문이 잘못된 것이 아닌, 이러한 연구가 과거에 진행되었기 때문에 현재의 놀라운 기술발전이 가능했다고 생각한다. 앞으로도 이러한 문제점을 점차 개선해 나가는 것이 나의 Task가 아닐까 생각이 든다.