논문 링크
From ICML, 2020
BERT와 같이, 15%의 토큰을 input으로 사용하고, 그 중 80%는 [MASK2] 토큰으로, 10%는 random, 10%는 unchanged
Fig. 1 은 GSG와 MLM이 둘다 적용된 예시를 보여준다.