Image-guided Machine Translation : Overview & Flow

rhye·2023년 3월 13일
0
post-thumbnail

부제 : 왜 썸네일이 jpeg 파일이나구요 ?

Overview

이전 포스트에서 언급했듯, Image-guided Machine Translation (이후 IMT로 동일) 은 입력 텍스트와 관련된 이미지 정보를 기계 번역 모델의 추가 입력으로 사용하는 Multimodal Machine Translation 의 하위 분야이다. IMT를 도식화하면 다음과 같다.
구체적으로 설명하자면, IMT model의 input으로는 Language A의 text와 해당 text와 연관된 이미지 정보가 들어가고, output으로 Language B의 text가 산출된다.

Flow

IMT는 기본적으로 두 개 이상의 modality를 고려하는 multimodal task이고, 그렇다 보니 필연적으로 MT task 외에 cross-modal fusion task를 수반한다. 이에 따라 IMT의 발전 과정은 크게 베이스라인 모델의 발전과 cross-modal fusion method의 발전으로 나누어 살펴보아야 한다.

Baseline Model

우선 베이스라인 모델의 발전 과정은 다음과 같다.
위 도표를 통해 알 수 있듯, IMT 베이스라인 모델의 발전 과정은 전형적인 MT 모델의 발전 과정과 닮아 있다. 순서대로 살펴보자면, 초기 IMT 모델에 해당하는 1, 2, 3, 4 등에서 RNN 계열 모델이 베이스라인 모델로 쓰였다. 다만 위의 네 모델이 동일한 model architecture을 선택한 것은 아니다. 구체적으로 1, 2, 3, 4 모두 textual encoder로는 bi-directional RNN과 GRU를 융합한 모델을 채택했지만, decoder로는 각각 conditional GRU(CGRU), attention과 RNN을 융합한 모델, CGRU와 RNN을 융합한 모델, 단일 RNN 등 필요에 맞는 다양한 구조를 채택한 바 있다.

2017년 Transformer 모델 5 이 발표된 이후, IMT 베이스라인 모델로 RNN 대신 Transformer를 도입한 연구 6, 7, 8, 9, 14 가 대거 등장하였다. 해당 연구들에서도 마찬가지로 Transformer를 기반으로 하되 각각의 연구 목적에 맞게 차별성 있는 모델을 구축하였는데, 구체적으로 7에서는 Transformer encoder에 multimodal attention을 도입하였고, 8 에서는 Transformer decoder에 DCCN을 추가하였으며, 9 에서는 visual encoder로 Vision Transformer (ViT)을 활용한 바 있다.

2018년 BERT 10 를 시작으로 자연어 처리 분야에서 Pre-trained Language Model(PLM)들이 강세를 보임에 따라 IMT 분야에서도 다양한 PLM 모델들을 베이스라인 모델로 활용하기 시작하였다. 구체적으로 11 에서는 VL-BERT(Visual-Linguistic BERT)와 M-BERT(Multilingual BERT)을 융합함으로써 BERT를 확장시킨 IMT 모델을 구축하였고, 12 에서는 mBART(Multilingual BART)을 IMT task에 맞게 fine-tuning함으로써 BART를 확장시킨 IMT 모델을 구축한 바 있다.

Cross-modal Fusion Method

Cross-modal fusion method의 경우 뚜렷한 발전 경향은 없으나, 그 유형에 따라 크게 세 분류로 나눌 수 있다.

첫번째 유형은 IMT 모델의 Encoder에서 cross-modal fusion이 이루어지는 경우이다. 해당 유형은 초기 IMT 모델에 해당하는 2IMGW,IMGEIMG_W, IMG_E 모델에서 차용한 방식이며, 비교적 최근에 발표된 7 의 multimodal self-attention, 14 의 VTLM, 9 의 gated fusion을 통해 구현된 방식이기도 하다.

두번째 유형은 IMT 모델의 Decoder에서 cross-modal fusion이 이루어지는 경우이다. 이 유형은 초기 IMT 모델에 해당하는 1 부터 2IMGDIMG_D, 3IMGSRC+IMGIMG_{SRC+IMG} 모델에서 도입한 방식이며, 2020년 IMT SOTA 모델인 8 에서도 DCCN(Dynamic context-guided capsule network)을 통해 구현된 바 있다.

마지막 유형은 IMT 모델의 전체 cross-modal fusion이 총체적으로 이루어지는 경우이다. 해당 유형은 독특한 모델 구조에서부터 비롯된 예외적인 사례이다. 현재 이 유형에 해당하는 모델은 11 에서 소개된 BERTGEN 모델 뿐인데, BERTGEN은 모델 내에 encoder와 decoder 구분이 명확하지 않고 하나의 모델 안에서 encoding과 decoding이 모두 진행된다는 특성을 가진다. 이에 따라 모델의 세부 영역에서 cross-modal fusion이 이루어진다고 특정하기 어려우며, 하나의 모델 안에서 cross-modal fusion이 이루어진다고 보는 것이 적절하다.

요컨대 IMT 모델의 cross-modal fusion method의 경우 뚜렷한 발전 경향을 찾기 어렵다. 초기 모델에서 차용한 방식을 SOTA 모델에서 사용하기도 하고, 특정 연구 동향이 이어지다가도 끊기는 경향이 반복되기 때문이다. 이는 절대적인 우위에 있는 cross-modal fusion method 방식이 없다는 것을 보여준다.

한편, IMT 모델의 발전은 베이스라인 모델과 cross-modal fusion method에 국한되어 있지는 않다. 실제로 9 에서는 기존의 IMT 모델이 visual encoder로 채택했던 pre-trained CNN 모델(VGG-19, ResNet-50)들의 성능이 미약함을 지적하며 visual encoder로 ViT(Vision Transformer)을 도입한 모델을 발표하였고, 13 에서는 텍스트 데이터를 encoding할 때 pre-train word embedding이 IMT 모델 성능 향상에 기여한다는 연구 결과를 발표하였다. 뿐만 아니라 11, 14 에서는 기존의 IMT 모델들과 달리 pre-train & fine-tuning 방식을 채택해 학습의 효율을 높인 바 있다. 이처럼 IMT의 성능 개선을 위해 다방면의 연구들이 이루어지고 있고, 그 결과로 IMT 모델은 지속적으로 발전하고 있다.

Reference

  1. Caglayan, O., Barrault, L., & Bougares, F. (2016). Multimodal attention for neural machine translation. arXiv preprint arXiv:1609.03976.
  2. Calixto, I., Liu, Q., & Campbell, N. (2017). Incorporating global visual features into attention-based neural machine translation. arXiv preprint arXiv:1701.06521.
  3. Calixto, I., Liu, Q., & Campbell, N. (2017). Doubly-attentive decoder for multi-modal neural machine translation. arXiv preprint arXiv:1702.01287.
  4. Calixto, I., Rios, M., & Aziz, W. (2018). Latent variable model for multi-modal translation. arXiv preprint arXiv:1811.00357. Chicago
  5. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  6. Ive, J., Madhyastha, P., & Specia, L. (2019). Distilling translations with visual awareness. arXiv preprint arXiv:1906.07701.
  7. Yao, S., & Wan, X. (2020, July). Multimodal transformer for multimodal machine translation. In Proceedings of the 58th annual meeting of the association for computational linguistics (pp. 4346-4350).
  8. Lin, H., Meng, F., Su, J., Yin, Y., Yang, Z., Ge, Y., ... & Luo, J. (2020, October). Dynamic context-guided capsule network for multimodal machine translation. In Proceedings of the 28th ACM International Conference on Multimedia (pp. 1320-1329). Chicago
  9. Li, B., Lv, C., Zhou, Z., Zhou, T., Xiao, T., Ma, A., & Zhu, J. (2022). On vision features in multimodal machine translation. arXiv preprint arXiv:2203.09173. Chicago
  10. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  11. Mitzalis, F., Caglayan, O., Madhyastha, P., & Specia, L. (2021). BERTGEN: Multi-task Generation through BERT. arXiv preprint arXiv:2106.03484.
  12. Gupta, K., Gautam, D., & Mamidi, R. (2021). ViTA: Visual-linguistic translation by aligning object tags. arXiv preprint arXiv:2106.00250.
  13. Hirasawa, T., Kaneko, M., Imankulova, A., & Komachi, M. (2022). Pre-Trained Word Embedding and Language Model Improve Multimodal Machine Translation: A Case Study in Multi30K. IEEE Access, 10, 67653-67668.
  14. Caglayan, O., Kuyu, M., Amac, M. S., Madhyastha, P., Erdem, E., Erdem, A., & Specia, L. (2021). Cross-lingual visual pre-training for multimodal machine translation. arXiv preprint arXiv:2101.10044.

0개의 댓글