[NLP #6] How to Adapt Your Pretrained Multilingual Model to 1600 Languages (ACL, 2021)

누렁이·2023년 4월 12일
0

NLP

목록 보기
6/8

Abstract

Goal: 1600가지 언어 데이터셋을 활용해서 기존의 PMM 모델들 performance 검증
Challenge: 1) 소량 2) narrow domain
Result: XLM-R good

paper: https://aclanthology.org/2021.acl-long.351/

Introduction

  • PMM (pretrained multilingual model) 등장

    • general representation 생성
      • unsupervised word-embedding 사용 => 병렬 코퍼스 필요 O
      • transformer based models => 병렬 코퍼스 필요 X
    • 대표 모델
      • multilingual BERT => zeroshot
      • XLM => TLM
        => speech 를 MLM 해볼 순 없을까...?!?! wave2vec 어떻게 학습했는지 확인해봐야겠다.
      • XLM-R: 100개언어 지원
  • Background & Limitations

    • pretraining 시에 학습하지 않았던 언어들에 대해서는 제로샷 성능이 거의 랜덤이다. (비슷한 언어들에 대해서만 잘 작동함) => speech도 비슷할 수 있겠다..!!
    • 적용 범위 너무 좁다. (언어가 300개 정도 뿐이라서)
  • Approach

    • 성경 1600개 언어 사용하겠다. => 도메인이 하나뿐인거 아닌가????
    • zero shot 방식 모델 실험해서 어떤 게 제일 좋을까 확인

Related work

  • adpatation method
    • Continued pretraining :
      MLM: 타겟 단일 언어
      TLM: 병렬 corpus 만든다
      +{M:T}LM : 타겟, 병렬 번갈아 가면서 학습
    • Vocab extension
      • subword 사용해서 OOV 문제 해결하는 것에 착안.
      • 추가적으로 subword 사용하면 어떨까???
    • Adapters
      • transfer learning 돕기 위한 적은 수의 parameter 가진 layer
      • MAD-X
        • language adapter, task adapter
        • 각 언어에 대한 어댑터를 추가해서 전이학습 수행 그런 다음 task adapter 추가해서 튜닝. 언어의 general한걸, task specific 둘다 하겠단 뜻이겠구나?
          => 그냥 멀티태스크가.... 아닌가????

Method

Result

  • ner
  • pos: context 크게 상관 X

Case study

  • 언어 유사성 많이 의존한다. => speech도 그러는지 확인해보고 싶다!!!!!!
  • general 한 데이터로 사전학습했을 때 성능이 더 좋았다.
    오호......

근데 chatGPT는 왜케 다 잘행...?
그럼 그게 잘 맞는지를 확실히 봐야하는데...
아근데 out-of-domain 데이터셋을 이용해서 실험 더 보충하는거 실험도 있잖아!!!!!!

profile
왈왈

0개의 댓글