Start-Text-Extract-Transformer-Linear
Linear 단을 제거하고 학습단에서는 learning rate를 작게 만들어서 transfer learning에 사용한다.
Start- Premise - Delim -Hypothesis - Extract -Transformer - Linear
Delim : 특수 문자
Extract가 query처럼 사용되어서 입력 문장들로부터 필요한 정보들을 추출할 수 있어야함
Elmo의 Bi-direction LSTM을 사용함
기존의 LM은 한쪽 방향에서의 정보만을 사용했다. 그러나 사람은 언어를 이해할 때 양쪽 방향을 모두 살펴보고 이해함
마스크 비율에 따라 학습 효율이 달라지는데 논문에서는 15% 비율을 마스킹했다.
→ Fine tuning 시에는 [MASK] 라는 토큰이 없다.
80%는 mask token, 10%는 random word로 replace, 10%는 원래 단어와 동일하게 둔다.
두 문장을 이으면서 SEP 토큰을 문장 사이와 문장 마지막에 넣고 CLS 토큰을 문장의 시작 부분에 놓는다.