profile
學而時習之 不亦說乎

From Word Embeddings To Document Distances

Word2Vec을 활용하여 문서 간의 거리를 측정하는 Word Mover's Distance를 소개하는 논문입니다.

2022년 1월 26일
·
0개의 댓글

Document Embedding with Paragraph Vectors

Doc2Vec인 Paragraph Vector의 성능을 감성분석 이외의 task에서 수행합니다. LDA를 비교대상으로 삼아 비교 결과를 제시하는 논문입니다.

2022년 1월 3일
·
0개의 댓글

Distributed Representations of Sentences and Documents

Doc2Vec로도 불리는 Paragraph Vector를 소개하는 논문입니다. Word2Vec의 컨셉을 유지하면서 word vector뿐만 아닌 문장 혹은 문서 전체를 대표하는 또 다른 vector를 하나 추가하여 전체적인 의미를 포함하는 vector를 학습합니다.

2021년 12월 29일
·
0개의 댓글

ITEM2VEC: NEURAL ITEM EMBEDDING FOR COLLABORATIVE FILTERING

Word2Vec으로 알려진 Skip-gram with Negative sampling 방식을 추천시스템에 적용한 Item2vec을 소개하는 논문입니다.

2021년 12월 23일
·
0개의 댓글

Distributed Representations of Words and Phrases and their Compositionality

Word2Vec를 소개한 논문과 연이어 나온 논문입니다. Skip-gram 모델을 바탕으로 Negative sampling, Subsampling method, 관용구 학습 아이디어 등을 소개합니다.

2021년 12월 22일
·
0개의 댓글

A Neural Probabilistic Language Model

신경망을 활용하여 단어를 continous vector 인 feature vector로 나타내는 NPLM 논문입니다. Word embedding에 신경망을 활용하는 대표적인 초기 방법입니다.

2021년 12월 21일
·
0개의 댓글

Efficient Estimation of Word Representations in Vector Space

초기 Word Embedding 방법 중 하나인 Word2Vec을 소개하는 논문입니다. CBOW와 Skip-gram을 소개하고 각 모델의 성능을 기존의 모델들과 비교합니다.

2021년 12월 16일
·
0개의 댓글

StarSpace: Embed All The Things!

Text classification, Document Embedding과 같은 NLP task 뿐만 아니라 recommendation, knowledge graph에도 폭 넓게 활용할 수 있으며 좋은 성능을 보이는 Embedding model인 StarSpace를 소개

2021년 12월 15일
·
0개의 댓글

A Survey of Collaborative Filtering Techniques

추천 시스템의 기본 중 하나인 Collaborative Filtering과 관련된 survey 논문입니다. Collaborative Filtering의 개념을 파악하기 좋은 논문입니다.

2021년 12월 9일
·
0개의 댓글

Neural Machine Translation of Rare Words with Subword Units

대표적인 Tokenizing 알고리즘 중 하나인 BPE를 소개하는 논문입니다. BPE는 Sentencepiece와 같은 Tokenizing 방법의 base이기도 합니다.

2021년 12월 7일
·
0개의 댓글

KR-WordRank : An Unsupervised Korean Word Extraction Method Based on WordRank

비지도 방법을 통해 한국어 단어를 추출하는 KR-WordRank 방법을 소개하는 논문입니다. 학습 데이터를 만들 수 없거나 실제 사용되는 형태의 단어 추출이 필요한 경우 유용하게 사용할 수 있는 컨셉입니다.

2021년 10월 19일
·
0개의 댓글

An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks

한국어 자연어 처리를 위해 사용할 수 있는 Tokenization 전략들을 소개하고 기계 번역, NLU task에 다양한 tokenization을 사용한 결과를 비교하여 가장 좋은 성능을 보이는 tokenization을 확인하는 논문입니다.

2021년 10월 14일
·
0개의 댓글

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

BERT에 대표적으로 활용되는 Subword Segmentation인 SentecePiece를 소개하는 논문입니다. 기본적인 Concept을 확인할 수 있으며 SentecePiece에서 공개한 Git을 통해 코드를 확인할 수 있습니다.

2021년 10월 13일
·
0개의 댓글

A Survey on Contextual Embeddings

Contextual Embedding과 관련된 모델, 방법론들을 설명해주는 논문입니다. 전체적인 흐름과 발전과정을 따라가기에 적합한 논문입니다.

2021년 10월 12일
·
0개의 댓글

Word Embeddings: A Survey

기본적인 Word Embedding과 관련 연구들을 소개하는 Survey 논문 입니다. Word Embedding의 기본이 되는 prediction-based model, count-based model의 개념과 관련 연구들을 파악하기에 적합한 논문입니다.

2021년 9월 28일
·
0개의 댓글