Linear interaction distance Recurrent Model은 left-to-right, 멀리 떨어진 단어들끼리의 관계를 나타내기 위해서 O(sequence length)만큼이 소요된다. 따라서 Long-distance dependencies가 나타
cs224n lecture 10: pretraining
question answering의 목표는 인간의 언어로 이뤄진 질문에 대해 자동적으로 대답하는 시스템을 만드는 것
일반적인 language model은 text가 주어졌을 때, 다음 단어를 예측하고 그 확률을 계산한다.최근에는 masked language model이 text의 일부분을 mask token으로 대체하고, 이를 bidirectional context를 이용해 mask