Abstract
- computing continuous vector representations of words from very large data sets ํ๋ ๋ ๊ฐ์ง ๋ชจ๋ธ ๊ตฌ์กฐ ์ ์
- word similarity task์์ ์ฑ๋ฅ ์ธก์
- better accuracy, less computiational cost
Introduction
-
Word๋ฅผ ๊ฐ๊ฐ ๋
๋ฆฝ๋ atomic unit์ผ๋ก ๋ค๋ฃฌ๋ค
- ๋จ์ด ๊ฐ ์ ์ฌ์ฑ ํํ X
- ์ฅ์
- Simplicty,
- Robustness,
- ๊ฐ๋จํ ๋ชจ๋ธ์ ๋ง์ ๋ฐ์ดํฐ ํ์ต > ๋ณต์กํ ๋ชจ๋ธ์ ์ ์ ๋ฐ์ดํฐ ํ์ต
- N-Gram Model
- ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ์ ํ๊ณ์ธ ํฌ์์ฑ(Spasity) ๋ฌธ์ ๋ฅผ ๋ณด์.
- ๋จ์ด์ ์๊ฐ ๋งค์ฐ ๋ง์ ์ดํ ์งํฉ์์ ๊ฐ ๋จ์ด์ ๋ฑ์ฅ ๋น๋๊ฐ ๊ท ๋ฑํ์ง ์๊ณ , ๋๋ถ๋ถ์ ๋จ์ด๋ค์ด ์ ํ๋ ๋ฐ์ดํฐ์์ ๋๋ฌผ๊ฒ ๋ํ๋๊ธฐ ๋๋ฌธ์ ๋ฐ์
- ๋ค์ ๋จ์ด๋ฅผ ์์ธก ์ ๋ชจ๋ ๋จ์ด๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ํน์ ๋จ์ด N๊ฐ๋ง ๊ณ ๋ คํ๋ค โ N๊ฐ์ ์ฐ์์ ์ธ ๋จ์ด๋ฅผ ํ token์ผ๋ก ๊ฐ์ฃผ
- ํ๊ณ
- ์ ์ฒด ๋จ์ด๋ฅผ ๊ณ ๋ คํ๋ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ ์ ํ๋๊ฐ ๋ฎ๋ค
- ์ฌ์ ํ ํฌ์์ฑ ๋ฌธ์ ์กด์ฌ
- N๊ฐ์ ๋ฐ๋ฅธ Trade-off
-
ML ๊ธฐ์ ๋ฐ์ ํ๋ฉด์ ๋ณต์กํ ๋ชจ๋ธ์ ๋ง์ ๋ฐ์ดํฐ ํ์ต ๊ฐ๋ฅํด์ก๋ค โ ์ด์ ์ ๋ชปํด๋ณธ ์๋ ๊ฐ๋ฅ
-
ํนํ Distributed Repersentations (๋ถ์ฐ ํํ) ๊ฐ๋ฅ
- '๋น์ทํ ๋ฌธ๋งฅ์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋คโ๋ ๊ฐ์ ํ์ ๋ง๋ค์ด์ง ํํ ๋ฐฉ๋ฒ
- ๋จ์ด ๋ฒกํฐ ๊ฐ ์ ์ฌ๋ ๊ณ์ฐ ๊ฐ๋ฅ
-
๊ทผ์ฒ์ ์์นํ ๋จ์ด์ ์ ์ฌ์ฑ ๋ฟ๋ง ์๋๋ผ ๋ค์ํ ์ฐจ์์ ์ ์ฌ์ฑ(Multiple Degrees of Similarity)๋ ๊ฐ์ง๋ค
-
Syntatic regularities(๊ตฌ๋ฌธ๋ก ์ ๊ท์น์ฑ)๋ ์ฐพ์๋ธ๋ค
- King - Man + Woman = Queen
-
๋ณธ ๋
ผ๋ฌธ์์ ๋จ์ด ๊ฐ ์ ํ ๊ท์น์ฑ์ ์ ์งํ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ฐํ๊ณ , ๊ตฌ๋ฌธ๋ก ์ ,์๋ฏธ๋ก ์ ๊ท์น์ฑ์ ์ธก์ ํ ์ ์๋ test set์ ๊ณ ์ํ๊ณ ์ด ๊ท์น์ฑ์ด ๋์ ์ ํ๋๋ก ํ์ต๋ ์ ์์์ ๋ณด์ธ๋ค.
-
๋ํ ๋จ์ด์ ์ฐจ์๊ณผ ๋ฐ์ดํฐ์ ์์ด ํ์ต ์๊ฐ ๋ฐ ์ ํ๋์ ์ด๋ป๊ฒ ์ํฅ์ ์ฃผ๋์ง ์ด์ผ๊ธฐํ๋ค.
Previoud Work
- NNLM
- Feedforward Neural Network = Linear Projection Layer+ non-linear hidden layer
- word vector๊ฐ single hidden layer์์ ํ์ต๋ ํ NNLM์ trainํ๋๋ฐ ์ฌ์ฉ๋๋ค
- ์ฆ word vectors๋ full NNLM์ ๊ตฌ์ฑํ์ง์๊ณ ํ์ต๋๋ค
- ๋ณธ ๋
ผ๋ฌธ์ ์ด ๊ตฌ์กฐ๋ฅผ ํ์ฅ์ํค๊ณ , word vector๊ฐ simple model์ ์ฌ์ฉํด ํ์ต๋๋ first step์ ์ง์คํ๋ค
Model Architecture
- Neural Network์ ํตํด ๋ถ์ฐ ํํ์ ํ์ตํ๋๋ฐ ์ง์คํ๋ค.
- Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA)๋ณด๋ค ๋ฐ์ด๋๋ค
- ๋ณต์ก๋ ์ธก์ ๋ฐฉ์
- O = E (Epochs) X T (Number of the words) X Q (Model Architecture)
- E = 3 ~ 50, T = 1B
- ๋ชจ๋ ๋ชจ๋ธ์ SGD ์ฌ์ฉ
Feedforward Neural Net Language Model(NNLM)
-
input, projection, hidden and output layers
-
Input Layer : ์ด์ N๊ฐ ๋จ์ด๋ค์ด one hot encoding ๋์ด ์๋ค. (์ ์ฒด๋ V๊ฐ)
-
input layer๋ N X D ์ฐจ์์ธ projection layer P๋ก Projection ๋๋ค
-
์ด ํ N X D ํ๋ ฌ์ด D X H์ธ Hidden Layer ๋ง๋ N X H ์ถ๋ ฅ
-
Q = N X D + N X D X H + H X V
-
Hierarchical Softmax ์ฌ์ฉํด H X V โ H X log(V)
- Huffman Binary Tree ์ฌ์ฉ
- frequent words on short binary codes โ ๋น๋ ์ ๋์ ์๋ก root์ ๊ฐ๊น๊ฒ ์์น
- ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก๋ Negative Sampling ์๋ค.
-
๋ฐ๋ผ์ N X D X H ๊ฐ Cost ๊ฒฐ์ .
-
ํ๊ณ
- ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ชจ๋ ์ด์ ๋จ์ด๋ฅผ ์ฐธ๊ณ ํ๋ ๊ฒ์ด ์๋๋ผ ์ ํด์ง n๊ฐ์ ๋จ์ด๋ง ์ฐธ๊ณ ๊ฐ๋ฅ
Recurrent Neural Net Language Model (RNNLM)
- RNN ์ฌ์ฉํด ์์ ๊ตฌ์กฐ๋ก ๋ณต์กํ ํจํด ํํ ๊ฐ๋ฅ
- Projection Layer์์ด Input, Hidden, Output๋ง ์กด์ฌ
- Time Delay๋ฅผ ์ด์ฉํด Hideen Layer๊ฐ ์๊ธฐ ์์ ์ ์ฐ๊ฒฐ โ Short Term Memory
- Q = H X H + H X V
- D X H == H X H : word representations์ธ D๋ H์ ๊ฐ์ ์ฐจ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ.
- ์ญ์ H X V โ H X log(V) ๊ฐ๋ฅ โ H x H ์ ์ํด complexity ๊ฒฐ์
Parallel Training of Neural Networks
- DistBelief ์ฌ์ฉ
- run multiple replicas of the same model in parallel
- ๋ฐ์ดํฐ ๋ถ์ฐ ์ฒ๋ฆฌ๋ผ๊ณ ์๊ฐํ๋ฉด ๋ ๋ฏ
New Log-linear Models
- ์ด์ ๋ชจ๋ธ ๊ตฌ์กฐ์์ ๋๋ถ๋ถ์ complexity๋ non-linear Hidden Layer๊ฐ ์์ธ
CBOW (Continuous Bag-of-Words Model)
-
์ฃผ๋ณ์ ์๋ ๋จ์ด๋ค์ ์
๋ ฅ์ผ๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ค์ ์์ธก
-
non-linear Hidden Layer ์ ๊ฑฐ
-
๋ชจ๋ ๋จ์ด๊ฐ Projection Layer๋ฅผ ๊ณต์ โ ๋ชจ๋ ๋จ์ด๊ฐ ๋์ผํ ํ๋ ฌ๋ก Projected
-
๋จ์ด์ ์์ (Order of words)๊ฐ ์ํฅ์ ๋ฏธ์น์ง ์๊ธฐ ๋๋ฌธ์ bag-of-words๋ผ๊ณ ๋ถ๋ฅธ๋ค
-
์์ธกํ๋ ๋จ์ด = Center word(์ค์ฌ ๋จ์ด), ์์ธก์ ์ฌ์ฉ๋๋ ๋จ์ด = Context word(์ฃผ๋ณ ๋จ์ด)
-
Q = N X D + D X log(V)
Skip-Gram
T1โโt=1Tโโโcโคjโคc,j๎ โ=0โlogp(wt+jโโฃwtโ).
- ์ค์ฌ ๋จ์ด์์ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธก
- Q = C (Max Distance) X ( D + D X log(V) )
Result
Examples of the Learned Relationships
Conclusion
- vector representations of words์ ๋ํ ์ฐ๊ตฌ ์ฑ๊ณผ
- ๋งค์ฐ ๊ฐ๋จํ ๋ชจ๋ธ ๊ตฌ์กฐ์์ ๋์ ์์ค์ ๋จ์ด ๋ฒกํฐ ํ์ต ๊ฐ๋ฅ