BERT settings
일반성을 확인하기 위해서 ELECTRA 기준으로도 테스트 진행
조금씩 점수가 오르기는 했지만 위보다 더 적은 점수차를 보임.
ELECTRA 사용한 수치를 그대로 사용함.
해당 논문에는 ELECTRA base 훈련 시에는 span word masking 실험결과가 좋지 않아 베이스 모델의 경우 single-token sampling 적용했다고 한다.
참고 https://hongl.tistory.com/31