기존 transformer는 sequence 길이의 제곱 비례해서 계산, 긴 문장 불가능우리는 이를 해결하기 위해, attention 작업을 sequence 길이에 선형 비례하는 Longformer 소개Longformer의 attention 원리는 기존 self-at
Abstract unlabeled 말뭉치 데이터는 많지만, 특정 task를 학습하기 위한 labeled 데이터는 적다. 다양한 unlabeled 말뭉치를 이용한 generative pre-train과 특정 task의 fine-tuning의 큰 이점을 보여줄 것이다.
이 논문은 단어 사용의 복잡한 특성(문법, 의미)과 이들이 언어적 context에서 어떻게 사용되는지를 모델링한 새로운 종류의 deep contextualized word representations (문맥과 깊게 연관된 단어 임베딩)를 소개한다.거대한 단어 말뭉치로