기본적인 Word Embedding과 관련 연구들을 소개하는 Survey 논문 입니다. Word Embedding의 기본이 되는 prediction-based model, count-based model의 개념과 관련 연구들을 파악하기에 적합한 논문입니다.
Contextual Embedding과 관련된 모델, 방법론들을 설명해주는 논문입니다. 전체적인 흐름과 발전과정을 따라가기에 적합한 논문입니다.
BERT에 대표적으로 활용되는 Subword Segmentation인 SentecePiece를 소개하는 논문입니다. 기본적인 Concept을 확인할 수 있으며 SentecePiece에서 공개한 Git을 통해 코드를 확인할 수 있습니다.
한국어 자연어 처리를 위해 사용할 수 있는 Tokenization 전략들을 소개하고 기계 번역, NLU task에 다양한 tokenization을 사용한 결과를 비교하여 가장 좋은 성능을 보이는 tokenization을 확인하는 논문입니다.
비지도 방법을 통해 한국어 단어를 추출하는 KR-WordRank 방법을 소개하는 논문입니다. 학습 데이터를 만들 수 없거나 실제 사용되는 형태의 단어 추출이 필요한 경우 유용하게 사용할 수 있는 컨셉입니다.
대표적인 Tokenizing 알고리즘 중 하나인 BPE를 소개하는 논문입니다. BPE는 Sentencepiece와 같은 Tokenizing 방법의 base이기도 합니다.
추천 시스템의 기본 중 하나인 Collaborative Filtering과 관련된 survey 논문입니다. Collaborative Filtering의 개념을 파악하기 좋은 논문입니다.
Text classification, Document Embedding과 같은 NLP task 뿐만 아니라 recommendation, knowledge graph에도 폭 넓게 활용할 수 있으며 좋은 성능을 보이는 Embedding model인 StarSpace를 소개
초기 Word Embedding 방법 중 하나인 Word2Vec을 소개하는 논문입니다. CBOW와 Skip-gram을 소개하고 각 모델의 성능을 기존의 모델들과 비교합니다.
신경망을 활용하여 단어를 continous vector 인 feature vector로 나타내는 NPLM 논문입니다. Word embedding에 신경망을 활용하는 대표적인 초기 방법입니다.
Word2Vec를 소개한 논문과 연이어 나온 논문입니다. Skip-gram 모델을 바탕으로 Negative sampling, Subsampling method, 관용구 학습 아이디어 등을 소개합니다.
Word2Vec으로 알려진 Skip-gram with Negative sampling 방식을 추천시스템에 적용한 Item2vec을 소개하는 논문입니다.
Doc2Vec로도 불리는 Paragraph Vector를 소개하는 논문입니다. Word2Vec의 컨셉을 유지하면서 word vector뿐만 아닌 문장 혹은 문서 전체를 대표하는 또 다른 vector를 하나 추가하여 전체적인 의미를 포함하는 vector를 학습합니다.
Doc2Vec인 Paragraph Vector의 성능을 감성분석 이외의 task에서 수행합니다. LDA를 비교대상으로 삼아 비교 결과를 제시하는 논문입니다.
Word2Vec을 활용하여 문서 간의 거리를 측정하는 Word Mover's Distance를 소개하는 논문입니다.
문장, 문서를 구성하는 단어들의 vector들의 단순 평균을 문장, 문서 vector로 활용하여 학습 시간을 줄이는 동시에 다양한 task에서 좋은 성능을 보이는 DAN(Deep Averaging Networks)에 관한 논문입니다.
NLP에서도 CNN을 활용하는 것도 좋은 성능을 보이며, pre-trained vector는 univeral feature extractor임을 다시 한 번 보여주는 논문입니다.
해당 논문에서는 embedding-based recommendation model과 path-based recommendation model의 장점을 결합한 end-to-end joint learning framework를 소개합니다.
다양한 길이의 문장을 CNN과 Dynamic k-max pooling 을 통해 embedding 시킵니다. 하나의 네트워크에서 다양한 input을 한 번에 다룰 수 있는 것이 다양하게 활용할 수 있을 것으로 보입니다.
Neighborhood model과 latent factor model을 통합한 model을 제안하고 이 과정에서 발전된 negihborhood model과 Asymmetic-SVD, SVD++와 같은 모델을 제안하는 논문입니다.
Fasttext를 소개하는 논문입니다. 단어를 문자(알파벳) 단위로 쪼개 skip-gram을 적용하였으며, 그렇기 때문에 좋은 성능의 out-of-vocabulary word vector를 얻을 수 있습니다.
정형 Data 분석에서 파워풀한 성능을 보이는 대표 모델인 XGBoost를 소개하는 논문입니다.
Count-based model과 predict-based model의 장점을 결합하여 비지도 방법으로 word vector를 학습하는 GloVe를 소개하는 논문입니다.
input의 분포를 안정적으로 유지시켜 신경망 학습 속도를 높여 학습 성능을 높일 수 있는 Batch Normalization을 소개하는 논문입니다.
PMI 값과 co-occurrence 행렬분해를 통해 word embedding을 수행하는 Swivel을 소개하는 논문입니다.
딥러닝 학습을 효율적으로 할 수 있는 가중치 초기화 방식은 LSUV를 소개하는 논문입니다.
PMI를 활용한 word-context 행렬에 SVD와 같은 행렬분해를 수행하면 SGNS를 통해 학습된 word embedding과 유사한 결과를 얻을 수 있다는 것을 보인 논문입니다.
CNN을 활용하여 document embedding을 수행하여 이를 PMF에 활용하여 추천 시스템에 활용하는 ConvMF를 소개하는 논문입니다.
Unsupervised 방법으로 문장 embedding을 효율적으로 수행할 수 있는 SimCSE를 소개하는 논문입니다. Random dropout mask를 활용하여 input 스스로를 예측할 수 있도록 학습을 수행합니다.
단어를 vector로 표현하는 방식(embedding)에서 count-base와 predict-base 모델의 성능을 비교하는 논문입니다.
Large dataset과 sparse, imbalanced data에서도 효율적으로 활용할 수 있는 PMF 모델을 소개하는 논문입니다.
Discourse vector(주제 벡터)를 활용하여 sentence embedding을 unsupervised하게 구하는 방법을 소개하는 논문입니다. Sentence embedding은 단순 평균이 아닌 문장 내 단어들의 가중 평균으로 볼 수 있습니다.
신경망을 활용한 word embedding의 성능이 count-based 모델보다 뛰어난 것이 알고리즘 그 자체가 아닌 hyperparameter setting에 의한 것임을 보이고 hyperparameter를 전통 방식에도 적용해 본 논문입니다.
Sentence embedding을 unsupervised 방식을 통해 수행한 skip-thought를 소개하는 논문입니다. Word2vec의 skip-gram 학습 아이디어롤 문장 수준으로 확장하여 사용하였습니다.
ReLU를 사용하는 RNN에서 vanishing 혹은 exploding gradient없이 학습하기 위해 recurrent 초기 가중치 행렬로 positivie definite identity matrix를 활용하는 np-RNN에 관한 논문입니다.
RNN의 reccurent unit으로 tanh, LSTM, GRU 성능을 비교하는 논문입니다. LSTM에서 간소화된 GRU가 LSTM과 큰 성능 차이가 없다고 볼 수 있는 논문입니다.
RNN Encoder-Decoder 모델을 소개하면서 추후 GRU라고 이름붙은 LSTM 변형 Unit을 소개하는 논문입니다.
고정되지 않은 길이의 input을 다루기 위해 convoluton network를 응용한 grConv를 소개하고, GRU와 machine translation 측면에서 성능을 비교하는 논문입니다.
LSTM과 GRU보다 나은 성능을 보이는 architecture를 찾으며, LSTM의 각 gate들의 중요도를 평가하고 LSTM의 forget gate bias로 1을 사용할 때 LSTM의 성능이 향상됨을 보이는 논문입니다.
Hidden-to-hidden weight matrix에 DropConnect mask를 적용하여 기존 LSTM 수행에 변화를 주지 않아도 되는 weight-dropped LSTM과 학습 최적화 방식으로 NT-ASGD를 소개하는 논문입니다.
Dropout을 non-recurrent connection에만 적용하여 RNN 계열에 dropout을 활용할 수 있는 방법을 제안하는 논문입니다.
Layer의 activation에 drop을 적용하는 dropout의 일반화인 Layer weight에 drop을 적용하는 DropConnect를 소개하는 논문입니다. DropConnect가 dropout의 일반화 버전임을 보이고 성능이 더 좋다는 것도 보여줍니다.
Layer의 activation에 drop을 적용하는 dropout의 일반화인 Layer weight에 drop을 적용하는 DropConnect를 소개하는 논문입니다. DropConnect가 dropout의 일반화 버전임을 보이고 성능이 더 좋다는 것도 보여줍니다.
Pre-trained model 가장 윗 단에 쉽게 cache 역할을 추가할 수 있는 Neural Cache Model을 소개하는 논문입니다.
해당 논문에서는 language model과 neural machine translation에서 input embedding과 output embedding의 weight tying의 효용성을 소개합니다.
Seq2Seq를 소개하는 논문입니다. Input의 단어 순서를 뒤집어줌으로써 long sentence에서도 학습이 잘 될 수 있고, 성능 향상도 달성할 수 있다는 것을 보여주는 논문입니다.
Context-dependent, 즉 문맥 의미를 담은 word embedding을 얻을 수 있는 ELMo를 소개하는 논문입니다. biLM을 활용하여 biLM의 모든 layer output을 활용하며 각 layer 별 서로 다른 정보를 encode한다는 것을 보였습니다
신경망의 깊이가 깊어질수록 학습이 어렵다는 문제를 해결해주는 highway network를 소개하는 논문입니다. highway network는 ELMo 논문에서 활용된다고 언급되어 있습니다.
CBOW의 개념을 확장하여 unsupervsied 방식으로 sentecne embedding을 구하는 Sent2Vec을 소개하는 논문입니다.
Input 문서만으로 document embedding을 활용하여 informativeness와 diversity 특성을 지닌 keyphrase를 unsupuervised하게 뽑아주는 EmbedRank, EmbedRank++를 소개하는 논문입니다.
CBOW의 아이디어를 활용하여 bidirectional LSTM을 통해 context를 embedding하는 context2vec을 소개하는 논문입니다.
Attention을 소개하는 하는 논문입니다. 해당 논문에서는 annotation이라는 표현을 사용하지만 추후 attention으로 불리며 transformer 구조의 뼈대로 활용됩니다.
과학논문을 한정하여 keyword를 자동으로 뽑아주고 theme weighted PageRank 알고리즘을 통해 keyword 간의 ranking을 매기는 Key2Vec 모델을 소개하는 논문입니다.
NMT에서 효율적으로 활용될 수 있는 attention 기반의 구조인 global. local 2가지 방법을 소개하는 논문입니다.
NLP를 넘어서 DeepLearning 분야에 큰 영향을 준 Transformers를 소개하는 논문입니다.
Transformer의 decoder만을 활용한 구조를 통해 라벨링되지 않은 text 뭉치에서 범용적인 language model을 학습한 후 특정 task 수행을 위해 input 변화를 통해 fine-tuning을 수행하여 model을 얻는 GPT-1의 논문입니다.