arxiv: https://arxiv.org/abs/1310.4546
date: 05/11/2022
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, 26.
Precedent Studies
Skip-gram Model
Skip-gram Model의 특징
Objective
Key Point
Training Objective
Basic Skip-gram formation
( softmax 함수 활용 )
*Hierarchical Softmax*
- full softmax에 근접하면서 연산을 효율적으로 할 수 있는 방법
( w에 대한 확률 분포 대신 log(w)에 대한 확률 분포만을 구하면 된다는 이점 有 )
이진트리를 활용해 w의 output node 표현. 트리의 각 node의 leaf, child node의 확률과 연관 → 단어의 임의 확률 정의하게 해 줌
*Negative Sampling*
cf. NCE ( noise constructive estimation ) : softmax 로그 확률의 근사적 확률 최대 ( NCE의 변형 → Negative Sampling )
Objective / Definition
( used to replace every logP(wo|wi) term in ths Skip-gram objective )
Task
Negative Sampling vs. NCE
*Subsampling of Frequent Words*
Background
Objective / Definition
rare word, frequent word의 가중치 측정 위함
each word wi in the training set, discarded w/ probability computed by formula f(wi) = 단어 wi의 빈도수, t = threshold (typically 10^-5)
t보다 빈도수 ↑ 한 단어를 aggressively subsample → works well in practice
accelerates learning + improves the accuracy of the learned vectors of the rare words
; reg. Negative Sampling & Subsampling of Frequent Words
Background
Methodology
특정 맥락에서만 자주 등장하는 단어쌍 표현 → 어휘 크기를 크게 키우지 않으면서도 多 reasonable phrases 얻게 해줌
cf. conventional skip-gram model, 과도한 메모리 부하 induce 可
simple data-driven approach, where phrases are formed based on the unigram / bigram counts
(𝛿 = discounting coefficient)
매우 빈번하지 않은 단어로 구성된 구 방지 ( threshold 를 넘어선 score 가진 bi-gram이 선택됨 + 더 긴 phrase의 형성 )
Phrase Skip-gram model result
" Skip-gram을 이용한 단어나 구에 대한 표현, 벡터의 구조를 가지고도 analogical reasoning에서 정확한 성능을 보일 수 있는 선형적 표현이다 ! "
( Skip-gram의 표현, 의미있는 요소들의 결합을 벡터의 합으로 표현 可)