[컨퍼런스] DEVIEW 2020: 외국어가 읽힌다 딱! (파파고 이미지 번역)

박우현·2021년 1월 13일

👌 파파고 이미지 번역

파파고가 이미지 번역을 구현하는 방법을 알아본다

문자 인식
단어 그룹화
구글 이미지 번역이 이미 존재하지만, 구글 번역은 한 줄 단위로 묶기 때문에 의미적으로 번역이 부정확한 문제점이 있었다. 따라서 문단 단위로 묶는 번역이 필요할 경우, 문단 단위로 묶어서 번역을 더 자연스럽게 해보려고 했다. 그리고 계층적 텍스트 구조화의 필요성을 깨닳았다. 단어 - 라인 - 블록의 파이프라인을 가지도록 구조화를 시켰다.

텍스트 계층화 모델에 사용된 방법은

중 Segmentation이 가장 알맞다고 판단하여 Sementation 기반의 문자 검출기를 사용하였고, 이를 통해 단어 - 라인 - 블록을 성공적으로 구분해 낼 수 있었다.

기계 번역
텍스트 에디팅
텍스트 에디팅은 번역 결과를 실시간으로 이미지에 출력하여 보여주는 기능을 뜻한다. 이는 이미지에 인페인팅 기술 (객체를 자연스럽게 지우는 컴퓨터 비전 기술)를 적용한 후에 번역 결과를 출력해줌으로써 활용 가능하다. 그 과정은 이러하다
1. 배경색과 글자색 추출: 배경색과 글자색을 추출하고, 배경색은 최빈값으로, 글자색은 배경색과 대비가 가장 선명한 색으로 설정한다.
2. 인페인팅을 통해 배경을 자연스럽게 제거한다.
3. 알맞은 번역 결과를 써 넣는다. 이때, 번역 결과가 기존 텍스트가 있던 자리에 보기 좋게 들어갈 수 있도록 폰트의 크기와 줄바꿈 등을 자동으로 조절한다.

이러한 과정을 통해 파파고 번역의 단어 정렬 성능과 이미지 번역 성능 모두 기존의 번역기들을 뛰어넘는 결과를 도출했다.