RoBERTa: A Robustly Optimized BERT Pretraining Approach
Facebook AI
분야 및 배경지식
Pretrained Language Model, BERT
- BERT
- 두 segments(sequences of tokens)의 concatenation으로 이루어진 input 사용, 두 segments는 하나의 단일한 input sequence를 이루는데 [CLS]segment1[SEP]segment2[EOS]와 같은 특별한 토큰을 사용
- segment는 대개 하나 이상의 자연어 문장으로 이루어짐
- 사전학습을 위한 목적함수로는 masked language modeling(토큰 일부를 가리고 해당 토큰을 예측; cross entropy loss)과 next sentence prediction(다음 문장 예측; binary classification loss) 이용
- optimizer로 Adam, activation으로 GELU 등을 사용 (자세한 architecture와 hyperparameter는 논문 참고)
- BookCorpus와 English Wikipedia 데이터를 사용해 사전학습, 16GB의 uncompressed text
- static masking: 데이터 전처리 단계에서 masking을 진행, 단일한 static mask 사용
문제점
- 언어모델의 사전학습은 중요하나, 주요 하이퍼파라미터나 학습 데이터 크기 등에 대한 비교연구는 이루어지지 않음
해결책
RoBERTa (Robustly optimized BERT approach)
- 모델을 더 오래, 더 큰 배치로, 더 많은 데이터에 대해 학습
- BookCorpus + English Wikipedia (16GB), CC-News crawled from CommonCrawl News data (76GB), OpenWebText (38GB), STORIES (31GB)
- 더 큰 배치로 학습할 때 masked language modelling objective의 perplexity를 향상시키고, end-task의 정확성 또한 높여주며, 분산 데이터 병렬 학습을 통해 병렬화가 더욱 쉬움
- 다음 문장 예측(NSP; next sentence prediction) 학습을 제거
- 단일 문장으로 학습했을 시 downstream task의 성능을 해칠 수 있음
- 두 segment가 같은 document에서 온 것인지를 판단하는 NSP가 없을 때 downstream task performance가 유사하거나 살짝 더 높음
- sequence를 단일 문서로 제한했을 때가 여러 문서에서 sequence를 가져왔을 때보다 성능이 살짝 더 높음
- 더 긴 시퀀스로 학습
- 학습 데이터에 적용된 masking pattern(일부 가림 패턴)을 다양하게 변화
- dynamic masking: 모델에 시퀀스를 넣을 때마다 masking pattern을 생성, 기존 static masking 대비 성능이 살짝 증가
- larger byte-level BPE
- Byte-Pair Encoding (character와 word-level representation 사이 하이브리드) 사용해 서브워드 단어사전 생성
- 서브워드의 단위로 unicode 문자가 아닌 byte를 사용함으로써, unknown 토큰을 최소화하면서 적당한 크기(50K)의 단어사전 생성 가능
평가
GLUE (General Language Understanding Evaluation)
- 자연어 이해와 관련있는 9개의 데이터셋 (CoLA, SST, MRPC, STS, QQP, MNLI, QNLI, RTE, WNLI)
- 단일 문장 분류 혹은 문장쌍 분류 태스크로 이루어짐
SQuAD (Stanford Question Answering Dataset)
- context 문단과 하나의 질문으로 구성
- context에서 관련있는 부분을 가져와 질문에 대답하는 태스크
- SQuAD V2.0의 경우 질문이 대답가능한지 여부를 판단하는 추가적인 binary classifier 이용
RACE (ReAding Comprehension from Examinations)
- 28,000 passages와 100,000 질문들로 구성된 거대한 독해 데이터셋
- 각 passage는 여러 개의 질문들로 이루어져 있으며, 각 질문에 대해 4개의 선택지 중 하나를 선택하는 태스크
RoBERTa가 전반적으로 뛰어난 성능을 보임
한계
- 다양한 디자인 구조를 고민하였으나, novelty는 부족 (충분한 인력과 예산이 확보된 기업이기 때문에 가능했던 연구는 아니었을까?)
의의
- 다양한 비교연구를 통해 성능 향상에 있어 어떤 모델 디자인을 선택하는 것이 좋은지, 어떤 학습 전략을 선택하는 것이 좋은지를 밝힘
- CC-News라는 새로운 데이터셋 만듦
- Masked Language Model Pretraining (문장의 일부를 가리고 해당 부분을 예측하도록 학습하는 방식)이 상당히 경쟁력있는 방식임을 밝힘
- 논문 자체가 굉장히 깔끔하게 쓰여져, BERT를 포함해 관련 LM 지식들을 이해하는 데에 큰 도움을 줌