논문 원본 - https://arxiv.org/pdf/1301.3781.pdf Abstract large data set으로부터 단어들의 연속적인 벡터 표현을 계산하기 위해 두 가지 새로운 모델 구조를 제안함. representation의 quality는 단어 유사
Abstract 기존의 sequence transduction 모델들은 encoder와 decoder를 포함한 RNN, CNN을 기반으로 함. 좋은 성능을 보인 모델들은 attention mechanism을 통해 encoder와 decoder를 연결했음. ➡ att
PAPERBERT의 T가 Transformer의 약자이기 때문에 Transformer 논문을 먼저 읽고 읽는게 좋을 것 같다. BERT는 Transformer의 Encoder 구조만을 활용한 모델이다!BERT: Bidirectional Encoder Representa
PAPERAbstractBART는 seq2seq 모델을 사전 훈련시키기 위한 denoising autoencoder(DAE)(1) noising funcion으로 corrupt시키고 (2) original text로 복원 하도록 학습되어짐.standard Transfo
BERT와 같은 Transformer 기반의 모델들은 NLP에서 매우 성공적인 deep learning model이 되었음.하지만, full attention mechanism을 수행으로 인한 sequence 길이에 따른 quadratic dependency가 주요 한
PAPER새로운 type의 deep contextualized word representation을 소개(1) 단어 사용의 복잡한 특성들 (e.g. syntax and semantics)을 모두 만족시키는 표현(2) 언어적 맥락에서 어떻게 다양하게 사용되는지 (i.e.
PAPERNLU는 tedtual entailment, QA, semantice similarity assessment, 문서 분류과 같은 다양한 task를 구성함.large unlabeled text corpora🔺/ 특정 task를 학습하기 위한 labeled da