Multilingual machine translation with large language models: Empirical results and analysis
Wenhao Zhu, 29 Oct 2023
MMT 에 LLM 을 사용할 때의 advantages and challenges 를 분석했다. 다음의 두 질문으로 연구를 진행했다.
scaling law of LLM:
- scale of neural parameter 와 traning data 가 증가할수록 LLM 은 강해진다.
emergent abilities:
- in-context learning enables LLM to learn target tasks according to the prompt without updating any parameters
dataset
Flores-101
LLMs
8가지 모델: XGLM-7.5B (Lin et al., 2022), OPT-175B (Zhang et al., 2022), BLOOMZ7.1B (Scao et al., 2022), Falcon-7B (Almazrouei et al., 2023), LLaMA2-7B (Touvron et al., 2023), LLaMA2-7B-chat (Touvron et al., 2023), ChatGPT (OpenAI, 2022) and GPT-4 (OpenAI, 2023)
ICL strategy
in-context exemplars - 8 randomly-picked translation pairs from corresponding development set
in-context template - <X>=<Y>
supervised baselines
M2M-100-12B
NLLB-1.3B(distillation version)
google translator
metric
spBELU
COMET
SEScore
LLM 의 capability 가 언어에 따라 unbalance 되어있다.
LLMs still lag behind the strong supervised baseline, especially on low-resource languages
public dataset 으로 LLM 을 evaluate 하기 전에 data leakage를 먼저 고려해야한다.
어떤 factor 가 LLM 의 번역 성능에 영향을 주는지 분석한다. XGLM-7.5B 모델을 기준으로 분석함
LLM은 resource-efficient 한 방식으로 번역할 수 있다.
LLM 의 좋은 성능은 carefully-designed template 에 달렸다.
<X>=<Y>
가 BLEU 가장 높음, [SRC]: <X>\n [TGT]: <Y>
가 가장 낮음unreasonable template 도 LLM 을 instruct 할 수 있다.
<X>
can be translated to <Y>
로 해도 번역이 됨.<X>
can be summarized as <Y>
cross lingual exemplars help for certain translation directions
semantically-related exemplars 를 사용한다고 해서 randomly-picked exemplar 보다 더 낫지는 않다.