👌 파파고 이미지 번역
파파고가 이미지 번역을 구현하는 방법을 알아본다
✔ 기존 번역 방법
- 문자 인식 (OCR)
문자 검출 -> 문자 인식
- 단어 그룹화
관련 단어를 사람이 묶고 룰 기반으로 단어를 정렬
- 기계 번역 (MT)
✔ 파파고 이미지 번역 방법
- 문자 인식
- 단어 그룹화
구글 이미지 번역이 이미 존재하지만, 구글 번역은 한 줄 단위로 묶기 때문에 의미적으로 번역이 부정확한 문제점이 있었다. 따라서 문단 단위로 묶는 번역이 필요할 경우, 문단 단위로 묶어서 번역을 더 자연스럽게 해보려고 했다. 그리고 계층적 텍스트 구조화의 필요성을 깨닳았다. 단어 - 라인 - 블록의 파이프라인을 가지도록 구조화를 시켰다.
텍스트 계층화 모델에 사용된 방법은
- Anchor Box 기반: 네모난 형태를 추출
- Segmentation 기반: 다각형으로 형태를 추출
- Graph 기반: 관계를 중점적으로 추출
중 Segmentation이 가장 알맞다고 판단하여 Sementation 기반의 문자 검출기를 사용하였고, 이를 통해 단어 - 라인 - 블록을 성공적으로 구분해 낼 수 있었다.
- 기계 번역
- 텍스트 에디팅
텍스트 에디팅은 번역 결과를 실시간으로 이미지에 출력하여 보여주는 기능을 뜻한다. 이는 이미지에 인페인팅 기술 (객체를 자연스럽게 지우는 컴퓨터 비전 기술)를 적용한 후에 번역 결과를 출력해줌으로써 활용 가능하다. 그 과정은 이러하다
1. 배경색과 글자색 추출: 배경색과 글자색을 추출하고, 배경색은 최빈값으로, 글자색은 배경색과 대비가 가장 선명한 색으로 설정한다.
2. 인페인팅을 통해 배경을 자연스럽게 제거한다.
3. 알맞은 번역 결과를 써 넣는다. 이때, 번역 결과가 기존 텍스트가 있던 자리에 보기 좋게 들어갈 수 있도록 폰트의 크기와 줄바꿈 등을 자동으로 조절한다.
이러한 과정을 통해 파파고 번역의 단어 정렬 성능과 이미지 번역 성능 모두 기존의 번역기들을 뛰어넘는 결과를 도출했다.
👍 참고 사이트