0. Pre-trained Methods 기존 transformer model은 word embedding layer를 통해 vector로 변환된 token을 embedding matrix를 통해 embedding space에 projection하여 단어들이 특정 vector 값으로 mapping된다. 이러한 방법은 embedding matrix가 일종의...
0. Abstract NLP task들은 과제에 task에 특화된 dataset과 지도 학습을 통해 처리했다. 본 논문에서 Language Model은 WebText라는 수백만 dataset로 학습될 때, 특정한 지도 없이 task들을 학습하기 시작했음을 보여준다. 이 Language Model의 capacity는 zero-shot task transfe...
0. ABSTRACT 기존 Masked Language Model(MLM)처럼 input을 masking하여 [MASK] token 대신 generator network를 통해 replace token을 생성하여 해당 token이 생성된 token인지 original인지 예측하는 discriminator model를 학습한다. 모든 input token의...
FastText는 2017년 페이스북에서 발표한 논문이다. 0. Abstract Distributional representation을 이용한 Word2Vec은 각 단어의 다른 vector를 할당하여 단어의 형태를 무시한다. 그러므로 OOV와 낮은 빈도수로 등장하는 단어에서는 word representation을 얻을 수 없다. 본 논문에서는 Skipg...
Introduction Transformer는 2017년 구글이 발표한 "Attention is All You Need" 논문에서 나온 model로 기존의 seq2seq의 구조인 encoder-decoder와 attention mechanism만으로 구현된 model이다. Architecture Seq2Seq Encoder-Decoder 기본적으로 ...
Introduction Seq2seq model은 RNN기반 (LSTM, GRU) encoder와 decoder로 구성된 model이다. Seq2seq model은 보통 translation, generation, Q&A, 등에서 활용되는 모델이다. 예를 들어, translation에서는 입력의 길이와 출력의 길이가 다르기 때문에 기존 neuarl 기반의...
1. Introduction 최근 자연어처리 분야에서는 BERT와 같은 pre-trained language representation이 좋은 성능을 보이고 있고 일반적으로 크기가 커질수록 성능이 향상된다. 그리고 network의 성능 개선을 위해 큰 model을 훈련하고 작은 model로 distill 하는 방법이 있다. 본 논문에서는 큰 model을 ...
Introduction Transformer 논문에서도 자세하게 설명되어있지 않고 가볍게 넘겼던 positional encoding에 대해 이해하지 못했던 부분을 더 공부해봤다. 자연어 처리에서 sequence의 위치는 어순을 뜻하며 어순은 언어를 이해하는데 꼭 필요한 정보이다. 그러나 Transformer는 input의 token이 RNN과는 다르게 p...
오늘 가져온 논문은 2017년 구글팀이 발표한 Get to the Point : Summarization with Pointer-Generator Networks 입니다. 0. Introduction 먼저 summarization이란 글에서 중요한 정보를 뽑아 간략하게 간추리는 task를 의미합니다. summarization에는 기본적으로 두가지 met...
구글에서 발표한 BERT language model에 대한 리뷰이다. 0. Abstract BERT는 이전 language representation model과 달리 unlabeld corpus를 통해 모든 layer에서 bi-directional 문맥을 이용해 deep bidirectional representations를 미리 학습한다. 그리고 이...
1. Introduction Deep Convolutional Neural Networks는 Image Classification 분야에서 많은 발전을 이끌었다. 신경망이 더 깊을수록 성능이 더 좋은것을 여러 대회에서 증명해왔다. ResNet 연구자들은 depth를 깊게하는 것만으로 성능을 향상 시킬 수 있을까라는 의문을 제기했고 간단한 실험을 했다. I...
0.Abstract GAN은 기본적으로 두 개로 분리된 model이다. Generative Model(G) : Data의 distribution을 모사 Discriminative Model(D) : Sample Data가 G로부터 나온 data가 아닌 real data로부터 나올 확률을 추정 이러한 두개의 model을 동시에 학습하는 adversari...
0. Abstract 본 논문에서는 SimCSE를 통하여 sentence embedding의 SOTA를 달성했다고 한다. 먼저 논문에서 input sentence를 취해 dropout을 noise로 사용하여 contrastive objective를 통해 스스로를 예측하는 unsupervised-approach를 설명한다. 이러한 방법은 기존 supervi...
CycleGAN 논문을 읽기전 알아야하는 배경지식이 있다. GAN (Generative Adversarial Network) 먼저 GAN은 generator(생성자)와 discriminator(판별자), 두 가지 network로 구성되어 있다. G는 D를 속일 수 있는 data를 생성하게 되고 D는 data가 진짜인지(실제 input) 가짜인지(G가 생...
0. 먼저 object tracking이란? Object tracking의 순서로는 video가 들어오면 한 부분에 물체가 있다는걸 인식(Object Recognititon)하고 그 물체가 무엇인지(Object Classification)하고 정확한 위치를 나타낸다(Object Localization). 그리고 OC와 OL가 합쳐지면 Object Dete...
0. Abstract Deep Convolution Neural Networks(DCNNs)를 통해 pixel 단위의 classification 문제를 해결하기 위하여 사용한다. DCNNs의 마지막 layer에서느 object segmentation을 포착하기 어렵고 이러한 원인은 DCNNs의 invariance한 특징 때문이다. 본 논문에서는 이런 부정...
0.Abstract 본 논문에서는 sentence embedding을 얻기 위해 unsupervised contrastive learning framework를 제안했다. DiffCSE는 기존 문장과 mlm을 통해 masking을 통해 처리된 문장사이에서의 sensitive를 통해 생성된 sentence embedding을 학습한다. DiffCSE는 eq...
0.Abstract Sentence embedding을 학습하기 위해서는 label된 큰 규모의 data가 필요하다. 그러나 대부분의 task와 domain에서는 당연히 큰 규모의 data를 구하기는 쉽지 않다. 따라서 본 논문에서는 unsupervised 기반의 새로운 SOTA model인 TSDAE를 소개한다.(6.4% 향상) 또한 이 model은 d...
캡스톤에서 준비한 주제를 위해 Vision에서 등장 transformer를 기반으로한 Vision Transformer에 대해 알아봤다. 0. Introduction 현재 NLP에서는 transformer를 기반으로 한 여러 SOTA model이 존재하고 등장하고 있다. 이러한 transformer architecture를 크게 손대지않고 vision ...
본 논문은 2019년에 ACL에서 발표된 논문으로 기존 transformer가 고정된 길이의 sequence를 받아서 생기는 한계점을 잘 보완했다고 생각한다. 1. Introduction 기존 transformer는 RNN의 long-term dependecy를 극복한 모델로 현재 여러 language model에서 활용되고 있다. 그리고 transfo...
1. Introduction NLP domain에서 Transformer는 기존 RNN module의 한계점을 극복하면서 현재 거의 모든 language model의 기본으로 사용되고 있다. 최근에는 Vision Transformer가 등장하면서 Vision domain에서도 CNN module 없이도 좋은 성능을 보여줬다. 1.1 Vision Tran...
Transformer의 경량화에 대한 개인 연구를 진행하면서, 비슷한 메카니즘에 대한 논문을 찾아 리뷰하고자 한다. 0.Introduction 여전히 Transformer는 domain에 국한되지 않고 좋은 성능을 보여주고 있다. Transformer의 가장 핵심이 되는 메카니즘인, Attention은 전체 sequence에 대해서 모든 timestep...
Transformer기반의 모델을 많이 활용하면서 문득 multi-head attention에 대해서 의문이 들었다. 기존 model의 차원을 여러 head의 차원으로 쪼개서 전체 input sequence에 대해서 projection하는 것이 과연 어떤 효과와 역할(?)을 하는지, 이것이 single attention과 얼마나 큰 성능 차이를 보이는지 본...
Transformer 경량화 개인 연구에 clustering을 기반으로 한 attention을 추가할 계획으로 본 논문 리뷰를 진행했다.최근, Transformer의 Self-Attention의 연산량을 효과적으로 줄일 수 있는 방법으로 "sparse pattern b
Sparse Transformer Review Vanilla Transformer's self-attention's complexity : $O(N^2)$ Sparse Transformer's self-attention's complexity : $O(N\sqrt{N})$ Abstract Introduce Attention Sparse Factori...
0. Abstract 현재 NLP에서 Transformer기반의 language model이 좋은 성능을 보여주고 있다. ex) GPT, BERT,... 그러나 이러한 language model에 사용되는 위치 혹은 거리 embedding은 실제 거리 정보를 반영하지 않기 때문에 token간 거리를 capture하는데 최적이 아닐 수 있다. 따라서 본 논...
현재까지 발표된 linear complexity를 가지는 self-attention에 대해서 정리를 해보려고 한다. Linformer Linear Transformer Performer 1. Linformer 먼저 Linformer에 대해서 설명하면, Linformer 저자들은 self-attention matrix의 정보가 $k$개의 singular...
0. Abstract 기존 ViT(Vision Transformer)는 input resolution에 따라 complexity가 기하급수적으로 늘어났다. 기존 여러 방법을 통해 complexity를 낮추었지만, 이에따라 global한 feature extraction 기능 또한 하락하여 기존 ViT의 이점이 사라졌다. 따라서 저자는 linear ...