RoBERTa: A Robustly Optimized BERT Pretraining Approach

이지혜·2023년 1월 25일
0

language-model

목록 보기
4/9

RoBERTa: A Robustly Optimized BERT Pretraining Approach
Facebook AI

분야 및 배경지식

Pretrained Language Model, BERT

  • BERT
    • 두 segments(sequences of tokens)의 concatenation으로 이루어진 input 사용, 두 segments는 하나의 단일한 input sequence를 이루는데 [CLS]segment1[SEP]segment2[EOS]와 같은 특별한 토큰을 사용
    • segment는 대개 하나 이상의 자연어 문장으로 이루어짐
    • 사전학습을 위한 목적함수로는 masked language modeling(토큰 일부를 가리고 해당 토큰을 예측; cross entropy loss)과 next sentence prediction(다음 문장 예측; binary classification loss) 이용
    • optimizer로 Adam, activation으로 GELU 등을 사용 (자세한 architecture와 hyperparameter는 논문 참고)
    • BookCorpus와 English Wikipedia 데이터를 사용해 사전학습, 16GB의 uncompressed text
    • static masking: 데이터 전처리 단계에서 masking을 진행, 단일한 static mask 사용

문제점

  • 언어모델의 사전학습은 중요하나, 주요 하이퍼파라미터나 학습 데이터 크기 등에 대한 비교연구는 이루어지지 않음

해결책

RoBERTa (Robustly optimized BERT approach)

  • 모델을 더 오래, 더 큰 배치로, 더 많은 데이터에 대해 학습
    • BookCorpus + English Wikipedia (16GB), CC-News crawled from CommonCrawl News data (76GB), OpenWebText (38GB), STORIES (31GB)
    • 더 큰 배치로 학습할 때 masked language modelling objective의 perplexity를 향상시키고, end-task의 정확성 또한 높여주며, 분산 데이터 병렬 학습을 통해 병렬화가 더욱 쉬움
  • 다음 문장 예측(NSP; next sentence prediction) 학습을 제거
    • 단일 문장으로 학습했을 시 downstream task의 성능을 해칠 수 있음
    • 두 segment가 같은 document에서 온 것인지를 판단하는 NSP가 없을 때 downstream task performance가 유사하거나 살짝 더 높음
    • sequence를 단일 문서로 제한했을 때가 여러 문서에서 sequence를 가져왔을 때보다 성능이 살짝 더 높음
  • 더 긴 시퀀스로 학습
  • 학습 데이터에 적용된 masking pattern(일부 가림 패턴)을 다양하게 변화
    • dynamic masking: 모델에 시퀀스를 넣을 때마다 masking pattern을 생성, 기존 static masking 대비 성능이 살짝 증가
  • larger byte-level BPE
    • Byte-Pair Encoding (character와 word-level representation 사이 하이브리드) 사용해 서브워드 단어사전 생성
    • 서브워드의 단위로 unicode 문자가 아닌 byte를 사용함으로써, unknown 토큰을 최소화하면서 적당한 크기(50K)의 단어사전 생성 가능

평가

GLUE (General Language Understanding Evaluation)

  • 자연어 이해와 관련있는 9개의 데이터셋 (CoLA, SST, MRPC, STS, QQP, MNLI, QNLI, RTE, WNLI)
  • 단일 문장 분류 혹은 문장쌍 분류 태스크로 이루어짐

SQuAD (Stanford Question Answering Dataset)

  • context 문단과 하나의 질문으로 구성
  • context에서 관련있는 부분을 가져와 질문에 대답하는 태스크
  • SQuAD V2.0의 경우 질문이 대답가능한지 여부를 판단하는 추가적인 binary classifier 이용

RACE (ReAding Comprehension from Examinations)

  • 28,000 passages와 100,000 질문들로 구성된 거대한 독해 데이터셋
  • 각 passage는 여러 개의 질문들로 이루어져 있으며, 각 질문에 대해 4개의 선택지 중 하나를 선택하는 태스크

RoBERTa가 전반적으로 뛰어난 성능을 보임

한계

  • 다양한 디자인 구조를 고민하였으나, novelty는 부족 (충분한 인력과 예산이 확보된 기업이기 때문에 가능했던 연구는 아니었을까?)

의의

  • 다양한 비교연구를 통해 성능 향상에 있어 어떤 모델 디자인을 선택하는 것이 좋은지, 어떤 학습 전략을 선택하는 것이 좋은지를 밝힘
  • CC-News라는 새로운 데이터셋 만듦
  • Masked Language Model Pretraining (문장의 일부를 가리고 해당 부분을 예측하도록 학습하는 방식)이 상당히 경쟁력있는 방식임을 밝힘
  • 논문 자체가 굉장히 깔끔하게 쓰여져, BERT를 포함해 관련 LM 지식들을 이해하는 데에 큰 도움을 줌
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP)

0개의 댓글