Nature에 실린 200개 다국어 지원 번역모델 논문 정리

jihyelee·2024년 8월 20일

up-to-date-ai

목록 보기

7/13

Scaling neural machine translation to 200 languages (link, Nature)

기계번역의 품질을 높이기 위해서는 수많은 언어 쌍의 데이터셋이 필요 (parallel bilingual data)
- 모든 언어들 사이의 pair dataset 확보 어려움
- 장기적으로 자원이 많은 언어에 연구가 집중되어 디지털 불평등을 심화시킬 수 있음

No Language Left Behind (NLLB-200)

학습 데이터 구축: LASER3

distillation(증류)에 기반한 문장 인코딩 테크닉
자원이 적은 언어의 데이터 마이닝에 효과적
데이터 마이닝 단계
- 1. 단일한 언어에 대해 데이터셋 수집
  - 웹에서 데이터를 크롤링할 때, 어떤 언어인지 감지(Language IDentification; LID)하는 성능이 중요
- 1. 문장 유사도 (semantic sentence similarity) 기반의 지표를 활용해 다른 언어에서 의미적으로 동등할 확률이 높은 문장들을 식별
  - teacher-student 기법을 활용해 LASER 임베딩 공간을 확장, 해당 임베딩을 활용
학습 시 데이터셋은 이러한 마이닝 방식으로 구축한 데이터셋 이외에도 오픈 소스, 역번역(back-translation) 등 다양하게 사용

모델링: Sparse Gated Mixtures-of-Experts

관련 있는 언어에 대해 언어간(cross-lingual) 전이를 가능케 함
- 관련 없는 언어 사이의 간섭은 늘리지 않음
Mixture of Experts (MoE)
- 몇 개의 feedforward network 레이어가 MoE 레이어로 대체됨
- MoE 레이어는 feedforward network로 표현되는 expert와, 인풋 토큰을 어떤 expert로 라우팅할 지를 결정하는 gating network로 구성
  - label-smoothed cross entropy와 auxiliary load balancing loss의 조합을 최적화하는 방향으로 라우팅 학습

Expert Output Masking (EOM)
- 자원이 적은 언어의 경우, MoE의 오버피팅 문제 발생
- 이를 해결하기 위해 regularization으로 EOM 적용
Curriculum Learning
- 오버피팅을 추가적으로 막기 위해, 언어쌍을 단계적으로 학습에 사용
  - Pairs that empirically overfit within K updates are introduced with K updates before the end of training.
- curriculum learning이란, 학습 시 데이터의 순서 등을 조정하는 것

평가: FLORES-200

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab