(ongoing) How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL 2021)

Minhan Cho·2023년 4월 12일
0

Abstract

  • pretraining 때 학습된 language에 대해 PLM이 cross lingual 성능이 괜찮음
  • 그런데 evaluation은 전체 언어의 극히 일부에 불과
  • 본 연구는 1600개 이상의 언어에 대해 evaluation 진행
  • 쉽지 않은 이유: corpus size가 작음, domain이 한정되어 있음
  • 결과:
    • performance drop, NER과 POS tagging에 대해서는 XLM-R보다 나았음
    • continued pretraining & simplest approach가 짱임

1 Introduction

  • Pretrained Multilingual Models (PMMs)은 multilingual에서 zero shot 가능해 downstream task 가능해졌음
  • 그러나 pretraining corpus 안에 있는 language가 더 성능 좋고 그런 문제 있음
  • language's script가 completely unknown (pretrain한 언어이든, pretraining 언어와 비슷한 언어이든) 인 경우 zero-shot performance는 random
  • 이전 연구:
  • 본 연구: truly low-resource languages 사용 위해 "성경" 이용 -> 1600개 언어 커버 가능할 듯 (신약 사용 & no annotated training data)
  • method: XLM-R을 continued pretraining, vocabulary extention, adapters 사용
  • downstream tasks: POS & NER
  • small corpus & narrow domain임에도 불구하고 XLM-R에다 adapt & continued pretraining했을 때 성능 향상 있었음
  • case study는 러시아어와 바시키르어/체첸어/추바시어를 비교

Background

  • PMM 이전에는 병렬 코퍼스 사용, transformers 이후에는 다른 언어로 교차 학습하였음
  • XLM은 MLM의 연장선인 TLM 사용: 동일한 의미의 다른 언어로 된 병렬 말뭉치를 만들고 concat을 함
  • XLM-R: roBERTa를 사용 & 더 큰 corpus에서 학습한 XLM, 더 많은 언어 지원
  • continued pretraining: MLM(monolingual), TLM, MLM+TLM(한 배치는 MLM, 한 배치는 TLM으로 학습하는 등 번갈아 진행)
  • vocabulary extension: 새로운 subwords 추가
  • adapter: transfer learning을 위한 low parameter의 layer -> language adapter(target language 학습) & task adapter(task 학습), language adapter는 언어별로 학습됨(러시아어에 대한 adapter 등)
    -> adapter 내 도메인에 사용 가능할 듯

3 Experiment

  • 성경 사용: unlabeled data, 30개 언어의 사용은 pretraining 시 없는 애들, downstream task의 test data는 있는 애들을 중심으로
  • NER, POS tagging은 labeled data(not bible)
  • vocab extension의 경우 target 언어마다 new subwords를 추가해줌
  • NER이나 POS나 둘 다 continued pretraining (MLM, TLM, MLM+TLM) 이 도움이 됐다: adapter가 도움이 되지 않은 것은 domain의 한계(성경)인 것으로 추정

Case Study

  • 언어의 유사성이 미치는 영향이 큼 (English < Russian)
  • domain이 넓은 것도 중요함 (Bible < Wikipedia)

Opinion

  • adapter 사용 가능할까?: mentalBERT 한 번 보기
  • legal domain에도 multilingual 내지 cross lingual의 학습방법을 따라가야 할까,,?
  • out-of-domain, noisy data 등 고민해야
profile
multidisciplinary

0개의 댓글