Chen, S., Zeng, Y., Cao, D., & Lu, S. (2022). Video-guided machine translation via dual-level back-translation. Knowledge-Based Systems , 245 , 108598.
Abstract
Introduction
MMT ( Multimodal Machine Translation )
: 번역 시 보조적인 정보로 image / video를 활용
Prior Research
IMT의 경우
static visual content을 제공해주기에 명사 / 형용사 번역 정확도 ↑
dynamic visual information을 제공해주지 못하기 때문에 다의성을 가지고 있는 동사의 의미적 일관성 개선 어려움
VMT의 경우
이러한 IMT의 한계점을 타개하기 위해 도래했음
기존 방식들과 해당 방식의 한계점은 각각 다음과 같음
video의 global feature를 사용
↦ video의 불필요한 정보도 활용하게 됨
text와 video를 연결하기 위해 attention mechanism 사용
↦ action feature을 rough하게 활용
→ 동사 번역에서 dynamic visual concept를 제대로 활용하는 방법에 대한 연구는 아직 미미
MMT의 고질적인 문제
: 부수적인 시각정보 추출로 인한 의미적 불일치의 빈번한 발생 ( e.g., 문맥 혼동, 부정확한 단어 선택 )
Key Idea
“ 번역에서의 환원 가능성이 의미론적 일관성을 만든다 ! ”
: src → tgt → src의 자연스러운 전환이 가능해야 한다는 것인데,
backtranslation, 언어 간 환원 가능성을 개선함 !
DEAR ( Dual-lEvel bAck-tRanslation )
: multi-pattern joint learning을 통한 dual-level back-translation
Our Proposed Framework
: sentence level & concept level back translation 으로 구성 → end-to-end learning으로 강화
Video-guided Machine Translation ( VMT )
source language s = { s 1 , s 2 , . . . , s n } s = \{s_1, s_2, ... , s_n\} s = { s 1 , s 2 , . . . , s n } 와 이에 상응하는 비디오 v v v 가 주어졌을 때 source language와 의미론적으로 가까운 target language t = { t 1 , t 2 , . . . , t m } t = \{t_1,t_2, ..., t_m\} t = { t 1 , t 2 , . . . , t m } 생성
l o g p ( t ∣ s , v ) = ∑ i = 1 m p ( t i ∣ t < i , s , v ) log_p(t|s,v) = \sum_{i=1}^{m} p(t_i|t_{<i},s,v) l o g p ( t ∣ s , v ) = i = 1 ∑ m p ( t i ∣ t < i , s , v )
Dual-level back-translation
coarse-grained, fine-grained 의미론적 일관성 포착 위해 dual-level back translation module을 구축
Sentence-level back-translation
Z s a = E n c o d e r s ( s ) Z_s^a = Encoders(s) Z s a = E n c o d e r s ( s ) : source sentence s, encoder들을 거친다 !
Z s = S A i ( P E ( s ) ) Z_s = SA^i(PE(s)) Z s = S A i ( P E ( s ) )
: source sentence, positional encoding ( PE ) + N개의 self-attention module ( SA^i ) 거쳐 text embedding = source sentence representation 화
h i = s o f t m a x ( Q s i K v i d k ) V v i h_i=softmax(\cfrac{Q_s^iK_v^i}{\sqrt{d_k}})V_v^i h i = s o f t m a x ( d k Q s i K v i ) V v i Z s a = C o n c a t ( h 1 , h 2 , . . . , h h ) W 1 Z_s^a = Concat(h_1,h_2,...,h_h)W_1 Z s a = C o n c a t ( h 1 , h 2 , . . . , h h ) W 1
: concept-guided sentence feature 얻기 위해 Multi-head attention module 도입
( Q s i , K s i , V v i Q_s^i, K_s^i, V_v^i Q s i , K s i , V v i = i번째 attention layer의 학습가능한 representation matrices / W 1 W_1 W 1 = layer-specific trainable parameter matrice / d k d_k d k = scaling factor )
Z t = D e c o d e r s ( Z s a ) Z_t = Decoders(Z_s^a) Z t = D e c o d e r s ( Z s a )
target semantic feature ( Z t Z_t Z t ) 을 얻기 위해 Transformer decoder 가 쓰인다 !
t s = G r e e d y D e c o d i n g ( Z t ) t_s = GreedyDecoding(Z_t) t s = G r e e d y D e c o d i n g ( Z t )
: Z t Z_t Z t 를 기반으로 target sentence = synthetic source sentence t s t_s t s 도출
s t = G r e e d y D e c o d i n g ( D e c o d e r s ( E n c o d e r s ( t s ) ) ) s_t = GreedyDecoding(Decoders(Encoders(t_s))) s t = G r e e d y D e c o d i n g ( D e c o d e r s ( E n c o d e r s ( t s ) ) )
: t s t_s t s 가 모델을 거쳐 (regenerated) original source language sentence s t s_t s t 도출
→ 결국 Sentence-level back-translation의 training objective, translation과 back-translation 모두를 포괄하는
L t r a n s = l o g P ( t ∣ s , v ; Θ ) + λ 1 l o g P ( s t ∣ t s , v ; Θ ) L_{trans} = logP(t|s,v;Θ)+\lambda_1logP(s_t|t_s, v;Θ) L t r a n s = l o g P ( t ∣ s , v ; Θ ) + λ 1 l o g P ( s t ∣ t s , v ; Θ )
( P = 확률 , Θ = 모델 파라미터 , λ 1 \lambda_1 λ 1 = tradeoff 파라미터 )
Concept-level back-translation
concept는 fine-grained 의미론적 일관성 차원에서 중요
; 단순히 concept 사용하는데에서 그치지 않고, label까지 재생성해보겠다 !
input video에서 k개의 keyframe을 얻고, 하나의 keyframe에 대해 이어지는 32개의 frame을 새로운 action segment로 re-encode
→ 결과적으로 k개의 action concept feature v = { a 1 , a 2 , . . . , a k } v = \{a_1,a_2,...,a_k\} v = { a 1 , a 2 , . . . , a k } 과 k개의 concept label l = { l 1 , l 2 , . . . , l k } l = \{l_1,l_2,...,l_k\} l = { l 1 , l 2 , . . . , l k } 을 얻게 됨
h i = s o f t m a x ( Q v i K s i d k ) V s i h_i=softmax(\cfrac{Q_v^iK_s^i}{\sqrt{d_k}})V_s^i h i = s o f t m a x ( d k Q v i K s i ) V s i
Z a s = C o n c a t ( h 1 , h 2 , . . . , h h ) W 2 Z_a^s = Concat(h_1,h_2,...,h_h)W_2 Z a s = C o n c a t ( h 1 , h 2 , . . . , h h ) W 2
: sentence-guided concept feature 얻기 위해 Multi-head attention module 도입
( Q v i , K v i , V s i Q_v^i, K_v^i, V_s^i Q v i , K v i , V s i = i번째 attention layer의 학습가능한 representation matrices / W 2 W_2 W 2 = layer-specific trainable parameter matrice / d k d_k d k = scaling factor )
위의 multi-head attention과 해당 multi-head attention이 co-attention strategy로 활용
→ 문장과 action concepts 융합하는 역할
결국 concept-level back-translation의 목적은 source sentence와 target sentence가 동일한 action concept을 향하게 하는 것
a p l = l o g _ s o f t m a x ( M L P l ( Z a s ) ) ap^l = log\_softmax(MLP^l(Z^s_a)) a p l = l o g _ s o f t m a x ( M L P l ( Z a s ) )
: concept classification layer에 sentence-guided concept feature을 feed해 predicted action concept 도출 ( l ∈ { s l , t l } l \in \{sl,tl\} l ∈ { s l , t l } , types of language ; source language / target language )
→ 결국 Concept-level back-translation의 training objective,
L c o n c e p t B a c k = − ∑ j ∈ l ∑ i ∈ k l i × a p i j + ( 1 − l i ) × ( 1 − a p i j ) L_{conceptBack} = -\sum_{j\in l}\sum_{i \in k}l_i\times ap_i^j+(1-l_i)\times(1-ap_i^j) L c o n c e p t B a c k = − j ∈ l ∑ i ∈ k ∑ l i × a p i j + ( 1 − l i ) × ( 1 − a p i j )
( i, i 번째 concept label index )
action detection 결과로 도출된 k개의 concept label과 reconstruct된 concept category 간 concept-back loss 줄이는 방식
Multi-pattern joint learning
Background
기계번역에 있어, 다양한 패턴의 학습 방식은 각기 다른 이점이 있음
( e.g., source-to-source : 언어의 정확도 학습 가능 / source-to-target & back-translation : 문맥의 일관성 + 언어 환원성 탐구 가능 )
→ 다양한 패턴을 결합하면 의미론적 일관성을 보다 잘 학습할 수 있음
parameter sharing
: 언어 간 상호연관성 증진
Multi-pattern joint learning
shared Transformer로 multi-pattern을 학습한다 !
→ 언어 간 상호 연관과 의미론적 일관성 포착 위함
multi-language learning
: source-to-target & target-to-source 모두 shared Transformer의 동일한 parameter Θ 공유
→ input language에서의 제약 ↓
translation & back-translation
: 위와 동일하게 모두 shared Transformer의 동일한 parameter Θ 공유
“ Shared Transformer로 multi-pattern에 대한 joint learning을 가능케 함 “
: coarse-grained sentence-level back-translation과 fine-grained concept-level back-translation이 자연스럽게 결합되어 학습됨
Training Objective
£ = ∑ i ∈ ξ L t r a n s i ( Θ ) + λ 2 ∑ i ∈ ξ ( L c o n c e p t B a c k i ( Θ s l ) + L c o n c e p t B a c k i ( Θ t l ) ) £ = \sum_{i\in \xi}L^i_{trans}(Θ)+\lambda_2\sum_{i\in \xi}(L^i_{conceptBack}(Θ_{sl})+L^i_{conceptBack}(Θ_{tl})) £ = i ∈ ξ ∑ L t r a n s i ( Θ ) + λ 2 i ∈ ξ ∑ ( L c o n c e p t B a c k i ( Θ s l ) + L c o n c e p t B a c k i ( Θ t l ) )
[ ξ = { f , b } \xi=\{f,b\} ξ = { f , b } ( f f f = translation, b b b = back-translation ) , Θ s l Θ_{sl} Θ s l = source language’s parameter in the concept-level back-translation , Θ t l Θ_{tl} Θ t l = target language’s parameter in the concept-level back-translation ]
Overall Process
Experimental settings
Results
Conclusion
dual-level back-translation 을 도입한 VMT 모델 제안
coarse-grained 의미적 일관성을 위해 sentence-level back-translation 도입
fine-grained 의미적 일관성을 위해 concept-level back-translation 시 dynamic visual concept (video feature) + action label 활용됨
multi-pattern joint learning 도입 → multi-pattern과 multi-granularity가 동시에 강화됨