pretrained multilingual model은 transfer cross-lingual을 통해 zero-shot learning을 가능하게 하여 pretraining에 보이는 언어에 가장 적합한 성능을 발휘함
pretraining 시 보이지 않는 언어의 성능을 향상시키는 방법이 존재하지만, 세계 언어의 일부의 raw text를 사용하여 평가함
-> 따라서, 이 논문에서는, 1600개 이상의 언어에 사용할 수 있는 resource인 신약성경을 사용해서, PMM을 새로운 언어에 적응시키는 기존 방법의 성능을 평가함
This is challenging for two reasons:
(1) 작은 corpus size
(2) narrow domain
모든 접근 방식에 대해 성능이 저하되지만, XLM-R과 비교하여 모든 언어에서 음성 부분 태깅의 경우 최대 17.69%의 정확도와 NER의 경우 평균 6.29 F1이 향상
PMM은은 cross-lingual transfer을 통해 zero shot 학습을 가능하게 하는 가장 간단한 방법이고, target task와 language에 label이 필요하지 않음
하지만, downstream 성능은 pretraining data에 잘 나타나거나 언어적으로 잘 표현된 것과 유사한 언어의 경우 높음
representation이 감소함에 따라 성능이 저하되며, pretraining에서 볼 수 없었던 언어는 최악의 성능을 보임
여러 방법이 representation 되어지지 않은 언어로의 transfer 성능을 향상시키는 것으로 나타났지만, 이전 연구에서는 각각 316개 언어와 160개 언어를 다루는 wikipedia 또는 common crawl같이 비교적 적은 수의 언어에 대해 사용 가능한 소스의 레이블이 없는 데이터를 사용하여 평가함
-> 언어 문서화 또는 활성화를 지원할 수 있는 진정한 low resource 언어에 PMM을 사용할 수 있도록 하려면, 여러 언어에 더 광범위하게 적용 가능한 환경에서 어떻게 작용하는지 이해하는 것이 중요함
RQ) Can we use the Bible – a resource available for roughly 1600 languages – to improve a PMM’s zero-shot performance on an unseen target language? And, if so, what adaptation method works best?
assumption)
(1) the only text available in a target language is the New Testament
(2) no annotated training data exists in the target language
-> 30개 언어 세트에서 2개의 다운스트림 작업인 POS(Part of-Speech) 태깅 및 NER에 대한 결과를 제시함
놀랍게도 좁은 영역의 작은 corpus를 사용하더라도, 대부분은 XLM-R의 기본 성능보다 향상함