[NLP] How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL, 2021)

누렁이·2023년 4월 12일

NLP

목록 보기

6/13

Goal: 1600가지 언어 데이터셋을 활용해서 기존의 PMM 모델들 performance 검증
Challenge: 1) 소량 2) narrow domain
Result: XLM-R good

paper: https://aclanthology.org/2021.acl-long.351/

PMM (pretrained multilingual model) 등장
- general representation 생성
  - unsupervised word-embedding 사용 => 병렬 코퍼스 필요 O
  - transformer based models => 병렬 코퍼스 필요 X
- 대표 모델
  - multilingual BERT => zeroshot
  - XLM => TLM
    => speech 를 MLM 해볼 순 없을까...?!?! wave2vec 어떻게 학습했는지 확인해봐야겠다.
  - XLM-R: 100개언어 지원
Background & Limitations
- pretraining 시에 학습하지 않았던 언어들에 대해서는 제로샷 성능이 거의 랜덤이다. (비슷한 언어들에 대해서만 잘 작동함) => speech도 비슷할 수 있겠다..!!
- 적용 범위 너무 좁다. (언어가 300개 정도 뿐이라서)
Approach
- 성경 1600개 언어 사용하겠다. => 도메인이 하나뿐인거 아닌가????
- zero shot 방식 모델 실험해서 어떤 게 제일 좋을까 확인

근데 chatGPT는 왜케 다 잘행...?
그럼 그게 잘 맞는지를 확실히 봐야하는데...
아근데 out-of-domain 데이터셋을 이용해서 실험 더 보충하는거 실험도 있잖아!!!!!!

왈왈