unidirectional 모델은 실제로는 그렇게 중요하지 않은 순서를 엄격하게 학습하는 경향이 있다. 이러한 한계를 해결하기 위해서 본 논문은 bidirectional model을 고안하였다.
mask를 씌워서 information leak 방지하고, 랜덤하게 샘플링하기 때문에 다양한 페어로 학습이 가능.
negative sample이 100개