RoBERTa: A Robustly Optimized BERT Pretraining Approach

jihyelee·2023년 1월 25일

language-model

목록 보기

4/16

Pretrained Language Model, BERT

모델을 더 오래, 더 큰 배치로, 더 많은 데이터에 대해 학습
- BookCorpus + English Wikipedia (16GB), CC-News crawled from CommonCrawl News data (76GB), OpenWebText (38GB), STORIES (31GB)
- 더 큰 배치로 학습할 때 masked language modelling objective의 perplexity를 향상시키고, end-task의 정확성 또한 높여주며, 분산 데이터 병렬 학습을 통해 병렬화가 더욱 쉬움
다음 문장 예측(NSP; next sentence prediction) 학습을 제거
- 단일 문장으로 학습했을 시 downstream task의 성능을 해칠 수 있음
- 두 segment가 같은 document에서 온 것인지를 판단하는 NSP가 없을 때 downstream task performance가 유사하거나 살짝 더 높음
- sequence를 단일 문서로 제한했을 때가 여러 문서에서 sequence를 가져왔을 때보다 성능이 살짝 더 높음
더 긴 시퀀스로 학습
학습 데이터에 적용된 masking pattern(일부 가림 패턴)을 다양하게 변화
- dynamic masking: 모델에 시퀀스를 넣을 때마다 masking pattern을 생성, 기존 static masking 대비 성능이 살짝 증가
larger byte-level BPE
- Byte-Pair Encoding (character와 word-level representation 사이 하이브리드) 사용해 서브워드 단어사전 생성
- 서브워드의 단위로 unicode 문자가 아닌 byte를 사용함으로써, unknown 토큰을 최소화하면서 적당한 크기(50K)의 단어사전 생성 가능

GLUE (General Language Understanding Evaluation)

SQuAD (Stanford Question Answering Dataset)

RACE (ReAding Comprehension from Examinations)

RoBERTa가 전반적으로 뛰어난 성능을 보임

다양한 비교연구를 통해 성능 향상에 있어 어떤 모델 디자인을 선택하는 것이 좋은지, 어떤 학습 전략을 선택하는 것이 좋은지를 밝힘
CC-News라는 새로운 데이터셋 만듦
Masked Language Model Pretraining (문장의 일부를 가리고 해당 부분을 예측하도록 학습하는 방식)이 상당히 경쟁력있는 방식임을 밝힘
논문 자체가 굉장히 깔끔하게 쓰여져, BERT를 포함해 관련 LM 지식들을 이해하는 데에 큰 도움을 줌

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab