(ongoing) How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL 2021)

Minhan Cho·2023년 4월 12일

Abstract

pretraining 때 학습된 language에 대해 PLM이 cross lingual 성능이 괜찮음
그런데 evaluation은 전체 언어의 극히 일부에 불과
본 연구는 1600개 이상의 언어에 대해 evaluation 진행
쉽지 않은 이유: corpus size가 작음, domain이 한정되어 있음
결과:
- performance drop, NER과 POS tagging에 대해서는 XLM-R보다 나았음
- continued pretraining & simplest approach가 짱임

Pretrained Multilingual Models (PMMs)은 multilingual에서 zero shot 가능해 downstream task 가능해졌음
그러나 pretraining corpus 안에 있는 language가 더 성능 좋고 그런 문제 있음
language's script가 completely unknown (pretrain한 언어이든, pretraining 언어와 비슷한 언어이든) 인 경우 zero-shot performance는 random
이전 연구:
본 연구: truly low-resource languages 사용 위해 "성경" 이용 -> 1600개 언어 커버 가능할 듯 (신약 사용 & no annotated training data)
method: XLM-R을 continued pretraining, vocabulary extention, adapters 사용
downstream tasks: POS & NER
small corpus & narrow domain임에도 불구하고 XLM-R에다 adapt & continued pretraining했을 때 성능 향상 있었음
case study는 러시아어와 바시키르어/체첸어/추바시어를 비교

PMM 이전에는 병렬 코퍼스 사용, transformers 이후에는 다른 언어로 교차 학습하였음
XLM은 MLM의 연장선인 TLM 사용: 동일한 의미의 다른 언어로 된 병렬 말뭉치를 만들고 concat을 함
XLM-R: roBERTa를 사용 & 더 큰 corpus에서 학습한 XLM, 더 많은 언어 지원
continued pretraining: MLM(monolingual), TLM, MLM+TLM(한 배치는 MLM, 한 배치는 TLM으로 학습하는 등 번갈아 진행)
vocabulary extension: 새로운 subwords 추가
adapter: transfer learning을 위한 low parameter의 layer -> language adapter(target language 학습) & task adapter(task 학습), language adapter는 언어별로 학습됨(러시아어에 대한 adapter 등)
-> adapter 내 도메인에 사용 가능할 듯

성경 사용: unlabeled data, 30개 언어의 사용은 pretraining 시 없는 애들, downstream task의 test data는 있는 애들을 중심으로
NER, POS tagging은 labeled data(not bible)
vocab extension의 경우 target 언어마다 new subwords를 추가해줌
NER이나 POS나 둘 다 continued pretraining (MLM, TLM, MLM+TLM) 이 도움이 됐다: adapter가 도움이 되지 않은 것은 domain의 한계(성경)인 것으로 추정

multidisciplinary