[논문 리뷰 - 5] RoBERTa: A Robustly Optimized BERT Pretraining Approach

shanny·2025년 7월 19일

논문 리뷰

목록 보기

41/42

‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.

논문 URL - https://arxiv.org/pdf/1907.11692

-> 원래의 BERT가 실제로는 충분히 학습되지 않았다는 점(undertrained)을 밝혀냈고, 이후 발표된 모든 후속 모델들과 동등하거나 더 뛰어난 성능을 내는 새로운 학습법(RoBERTa)을 제안한다.

문제 상황
: 언어 모델 사전학습은 상당한 성능 향상을 이끌어냈지만, 다양한 접근 방식들 간의 신중한 비교는 어렵다.
해결 방법
: 그동안 간과되어왔던 설계 선택(design choices)의 중요성을 부각시키며, 최근 보고된 성능 향상의 근원이 실제로 무엇인지에 대해 파악한다.

여러 학습 전략 및 하이퍼파라미터(동적 마스킹, NSP 제거, 대용량 배치, byte-level BPE 등)를 결합해 RoBERTa(Robustly optimized BERT approach)라 명명한다.

새로운 데이터셋 CCNEWS를 사용하여, 사전학습에 더 많은 데이터를 투입하는 것이 실제로 다운스트림 성능을 추가로 향상시킴을 실험적으로 확인했다.

우리가 제안한 학습 개선을 통해, 적절한 설계 선택 하에서 마스킹 언어모델(MLM) 사전학습이 최근 발표된 그 어떤 방법들과도 경쟁력이 있음을 입증했다.

논문에서 강조한 것처럼 모델을 충분히 학습 시키기위한 요건들(핵심 하이퍼파라미터와 학습 데이터 크기 등)을 다양한 방법으로 시도해보면서 모델 성능을 비교 해보기

데이터 분석가