Chen, S., Zeng, Y., Cao, D., & Lu, S. (2022). Vision talks: Visual relationship-enhanced transformer for video-guided machine translation. Expert Systems with Applications, 209, 118264.
Abstract
기존 연구, 번역 성능 향상을 위해 비디오 전체를 활용한 바 있는데, 이게 noise로 작용할 수 있음
Visual relationship-enhanced transformer 제안
modality 간 연결을 위해 semantic-visual relational graph 활용
visual semantic 간 관계 포착을 위해 GCN 활용됨
multi-modal fusion을 하는 Transformer가 영상과 텍스트의 관계 정립
Introduction
VMT ( Video-guided Machine Translation )
: 언어쌍 간의 정렬을 위해서 부수적인 시공간적 맥락을 활용
Prior Research
: machine translation에서 어떻게 해야 video를 잘 활용할 수 있을까?
global video features를 사용
frame 단위로 appearance / motion feature 추출
attention mechanism의 활용
→ 부던한 노력들에도 video modality의 도입은 일련의 문제점들을 야기함
Possible Problems of Video Modality
Redundancy of Visual Understanding
: video에는 object, action, scene 등 여러 정보가 포함되어있는데, src txt에 연관된 것은 그 중 소수임 → video에서 불필요한 부분을 줄이고 src sentence와 연관된 부분을 강조하는 것이 중요
Confusion of Multi-modal Fusion
: 다양한 modality 간 fusion하는 방식에 따라 성능이 달라짐
→ 어떻게 fuse할 것 인가 ? 가 관건
Video의 structured conceptual representation = scene graph, 해당 문제들을 해결할 수 있음 !
graph의 형태로 표현되는 video 내 object들과 그들 간 관계, video 내의 key information을 충분히 드러낼 수 있음
→ video 내의 불필요한 정보를 걸러낼 수 있음
노드 간 dynamic한 관계, video의 dynamics와 닮아있음
graph는 textual label을 통해 연결되어있음
→ src text와 같은 modality이기에 multi-modal representation 간 간극이 보다 좁혀질 수 있음
→ scene graph를 통한 video와 source sentence의 key information 융합 제안
VRET ( Visual Relationship-Enhanced Transformer )
Three Modules
Semantic-Visual Relational Graph
a. video semantics를 visual → textual 형식으로 간결하게 추출
b. graph message propagation을 위해 object visual features를 통합
c. GCN으로 features들 간의 관계 파악
Structured Multi-Modal Fusion
a. multi-head residual attention → video objects와 src txt ( cross-modal information ) 융합
Sentence Generation
a. transformer decoder
b. fused context feature를 tgt text로 변역
Contribution
video 내 object를 detect하고 detect된 visual object 간 관계 파악
→ 보다 포괄적이고 간결한 visual content 추출 가능
: L개의 단어로 구성된 source language sentence s∈S, source language sentence를 묘사하는 video clip v∈V가 있다고 할 때,
기본적으로 src language sentence s을 m개의 단어로 구성된 corresponding tgt language sentence t∈T로 번역하는 task라는 점에서 기존의 machine translation과 동일하나, video 정보 v가 추가된다는 점에서 차별성
Semantic-visual relational graph
: video semantic을 visual data에서 textual data로 전환
objects와 그들의 relationship 포함
이후 graph message propagation 위해 object visual feature 통합됨
→ video 전체 정보를 cover
Semantic-visual relational graph Gsv=(v,εsv)
각 frame의 objects, object labels, object relationships로 구성
<oif,lif,pijf,ljf,ojf>
i,j∈{1,2,3,...,k} = 각 frame
oif,ojf= f번째 frame의 i, j번째 구역 ( objects )
lif,ljf = oif,ojf에 대응하는 label
pijf = oif,ojf 간 시각적 관계
object 와 object label 얻기 위해서 object feature extractor (masked R-CNN 기반) 활용
각 frame의 visual relationship pijf 을 추출해내기 위해서 scene graph generation이 사용됨
→ k개의 노드에 대한 edge들 생성
Structured multi-modal fusion
Semantic-visual relational graph의 textual objects feature를 video modality의 structured conceptual representation으로 간주 → video modality 와 text modality 간 간극 ↓
textual objects feature (video)과 source text feature (text)이 융합됨
→ GCN + positional encoding 기반의 relational graph encoder 제시 + multi-modal fusion 단계 구축
구조
a. token-level learned embedding
b. fixed positional encoding layer
c. stack of N identical layers : self-attention module과 fully-connected feed-forward network (2개의 sublayer가 residual connection으로 연결, layernorm 수행)으로 구성
Zs=PE(Embedding(s)) X=LayerNormn(FFNn(Zs)+Zs)
relational graph encoders
video representation Hv 의 생성
각 video segment, f개의 frame으로 구성
semantic-visual relational graph 생성 이후 Gsv1∼Gsvf
cf. Gsv ; vf (= frame f에 해당하는 nodes(object labels)) 간 관계 나타냄
Positional encoding
: video frame들의 순차적인 정보를 얻기 위해 positional encoding 수행
N개의 spatial graph convolution layer을 통해 각 frame에 있는 object 간 공간적 관계를 얻음