Gentle Introduction to Multimodal Machine Translation

rhye·2023년 1월 27일
0

부제 : 잠깐만요 이거 생각보다 재밌거든요 ? 일단 드루와

But First, Translation

기존의 기계번역은 텍스트 데이터에만 주목하는 경향을 보였다. 어찌보면 당연한 얘기다. 하나의 언어로 쓰인 텍스트를 다른 언어로 된 텍스트로 변환하는 일. 그것이 번역이니까 (찡긋) 그런데 여기서 우리는 번역이라는 작업에 대해 다시 생각해 볼 필요가 있다. 원론적인 이야기를 하려는 것은 아니다. 다만, 번역의 과정에 대해 조금 더 깊게 사유할 필요가 있다는 것이다.

사실 제가요..

여담이지만, 필자는 꽤 오랫동안 번역일을 했었다. 논문 번역부터 영상 번역, 홈페이지 번역 등 여러 도메인의 작업을 해왔는데, 가장 최근에는 영상 번역이 주가 되었었다. 다양한 도메인의 번역 작업을 진행하면서 느낀 것은, 번역 시 주의해야하는 지점이 도메인마다 다르다는 것이다.
예를 들어, 논문 번역의 경우 텍스트의 의미를 정확히 전달하는 것이 가장 중요하다. 해당 분야의 전문 용어에 대한 이해나 도메인 지식이 필수적이었고, 전문 용어의 의미를 변질시키지 않는데에 초점을 맞춰 번역 작업을 하곤 했다. 논문 특성 상 명료한 문장으로 쓰여있기 때문에 미묘한 뉘앙스나 맥락적인 정보는 크게 중요치 않다.
반면, 영상 번역의 경우 미묘한 뉘앙스나 맥락이 무엇보다 중요하다. 특히 발화자가 여러 명인 경우 맥락을 고려하지 않으면 지시대명사부터 꼬이는 경우가 수두룩하기에 (다들 말 좀 그만해... 아냐 말해.. 아니 그만 말해... ) 영상 전반의 흐름을 타면서 번역을 해야한다.

물론 강연이나 다큐멘터리같이 정보 전달에 초점이 맞춰져있는 영상의 경우 조금 다를 수 있겠지만, 인터뷰나 방송 영상의 경우 기본적으로 구어체의 일상 대화들로 이루어져있기 때문에 텍스트의 의미를 정확히 전달하는 것만큼이나 발화의 뉘앙스나 분위기, 대화의 맥락을 잘 살리는게 중요했다.

맥락을 고려해서 긴 호흡의 구어체 번역을 한다는 건 생각보다 쉽지 않은 일이다. 실제로 동일한 양의 문장을 번역한다고 했을 때, 영상 번역에 드는 시간과 노력은 논문 번역의 두 배 이상이라고 단언할 수 있다.

그래서 어쩌라는건지 ?

이 모든 TMI는 그냥 빌드업이었다. 시리즈 도입부터 기술적인 내용을 넣고 싶지 않기도 했고, 킬리언 머피 배우 사진을 블로그에 어떻게든 욱여넣고 싶기도 했다. 위에서 구구절절 주절주절 풀어냈지만, 이 포스트에서 하고자 한 이야기는 단 두 문장으로 요약할 수 있다.

인간 번역가에게도 번역일은 쉽지 않다 !
맥락을 고려해야하는 경우 더욱 그렇다 !

사람에게도 번역은 어려운 일인데, 하물며 기계에게는 어떻겠나. 기계 번역의 성능이 비약적으로 발전되기 어려운 이유는 번역이라는 태스크 그 자체의 난이도 때문 아닐까? 라는 생각을 해본다. 물론 필자의 뇌피셜이다. 뭐 아님 말고.

사실 구글 번역기나 네이버 파파고같이 대기업들이 제공하고 있는 번역 서비스가 일상 곳곳에 침투해있고, 꽤 좋은 성능을 내고 있는 요즘 같은 상황에서 기계 번역에 대한 연구가 활발하게 진행되지 않는 것은 어찌보면 당연한 일일지도 모른다. 그럼에도 불구하고 기계번역의 성능을 높이고자 하는 NLP 연구자들은 전 세계 곳곳에 존재하고, 이들은 기계가 번역을 조금 더 잘 해낼 수 있는 방법을 끊임없이 고민해왔다. 그리고 오랜 고민 끝에 그들이 주목하기 시작한 지점이 바로 텍스트 외부의 맥락 정보이다.

이러한 흐름 속에서 기계번역에 대한 새로운 연구 동향, Multimodal Machine Translation이 등장하게 된다.

0개의 댓글