(ongoing) How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL 2021)
Abstract
- pretraining 때 학습된 language에 대해 PLM이 cross lingual 성능이 괜찮음
- 그런데 evaluation은 전체 언어의 극히 일부에 불과
- 본 연구는 1600개 이상의 언어에 대해 evaluation 진행
- 쉽지 않은 이유: corpus size가 작음, domain이 한정되어 있음
- 결과:
- performance drop, NER과 POS tagging에 대해서는 XLM-R보다 나았음
- continued pretraining & simplest approach가 짱임
1 Introduction
- Pretrained Multilingual Models (PMMs)은 multilingual에서 zero shot 가능해 downstream task 가능해졌음
- 그러나 pretraining corpus 안에 있는 language가 더 성능 좋고 그런 문제 있음
- language's script가 completely unknown (pretrain한 언어이든, pretraining 언어와 비슷한 언어이든) 인 경우 zero-shot performance는 random
- 이전 연구:
- 본 연구: truly low-resource languages 사용 위해 "성경" 이용 -> 1600개 언어 커버 가능할 듯 (신약 사용 & no annotated training data)
- method: XLM-R을 continued pretraining, vocabulary extention, adapters 사용
- downstream tasks: POS & NER
- small corpus & narrow domain임에도 불구하고 XLM-R에다 adapt & continued pretraining했을 때 성능 향상 있었음
- case study는 러시아어와 바시키르어/체첸어/추바시어를 비교
Background
- PMM 이전에는 병렬 코퍼스 사용, transformers 이후에는 다른 언어로 교차 학습하였음
- XLM은 MLM의 연장선인 TLM 사용: 동일한 의미의 다른 언어로 된 병렬 말뭉치를 만들고 concat을 함
- XLM-R: roBERTa를 사용 & 더 큰 corpus에서 학습한 XLM, 더 많은 언어 지원
- continued pretraining: MLM(monolingual), TLM, MLM+TLM(한 배치는 MLM, 한 배치는 TLM으로 학습하는 등 번갈아 진행)
- vocabulary extension: 새로운 subwords 추가
- adapter: transfer learning을 위한 low parameter의 layer -> language adapter(target language 학습) & task adapter(task 학습), language adapter는 언어별로 학습됨(러시아어에 대한 adapter 등)
-> adapter 내 도메인에 사용 가능할 듯
3 Experiment
- 성경 사용: unlabeled data, 30개 언어의 사용은 pretraining 시 없는 애들, downstream task의 test data는 있는 애들을 중심으로
- NER, POS tagging은 labeled data(not bible)
- vocab extension의 경우 target 언어마다 new subwords를 추가해줌
- NER이나 POS나 둘 다 continued pretraining (MLM, TLM, MLM+TLM) 이 도움이 됐다: adapter가 도움이 되지 않은 것은 domain의 한계(성경)인 것으로 추정
Case Study
- 언어의 유사성이 미치는 영향이 큼 (English < Russian)
- domain이 넓은 것도 중요함 (Bible < Wikipedia)
Opinion
- adapter 사용 가능할까?: mentalBERT 한 번 보기
- legal domain에도 multilingual 내지 cross lingual의 학습방법을 따라가야 할까,,?
- out-of-domain, noisy data 등 고민해야