💡 주요 목표는 "BERT의 잠재력을 최대한 끌어내기 위해 학습 방식을 어떻게 조정할 수 있는가"에 대한 답을 찾는 것
💡 RoBERTa는 BERT의 기본 구조를 유지하면서도 데이터 양 증대, 동적 마스킹, NSP 태스크 제거, 하이퍼파라미터 최적화를 통해 성능을 크게 향상시킴!