๋ณธ๊ณ ๋ ๋๋์ ๋ฐ์ดํฐ๋ก ๋ถํฐ ๋จ์ด์ ์ฐ์์ ์ธ ๋ฒกํฐํํ์ ๊ณ์ฐํ๊ธฐ ์ํ ๋ ๊ฐ์ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค. ์ด ํํ๋ค์ ์ฑ๋ฅ์ ๋จ์ด ์ ์ฌ๋๋ก ์ธก์ ๋๋ฉฐ, ์ด ๊ฒฐ๊ณผ๋ ์ด์ ์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋๋ ๋ค๋ฅธ ์ ํ์ ์ ๊ฒฝ๋ง๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ ๊ธฐ์ ๊ณผ ๋น๊ตํ๋ค. ๋ณธ๊ณ ๋ ๋งค์ฐ ์์ ๊ณ์ฐ ๋ณต์ก๋๋ก ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋ค. ๋ค์๋งํด, 1.6 billion ๊ฐ์ ๋จ์ด ๋ฐ์ดํฐ์ ์ผ๋ก ๋ถํฐ ๋์ ํ์ง์ ๋จ์ด ๋ฒกํฐ๋ฅผ ๋ฐฐ์ฐ๋ ๋ฐ์ ํ๋ฃจ๊ฐ ์ฑ ๊ฑธ๋ฆฌ์ง ์๋๋ค. ๋์ฑ์ด, ๊ตฌ๋ฌธ ์ ์ฌ๋์ ์๋ฏธ ์ ์ฌ๋๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ์ด ๋ฒกํฐ๋ค์ด ์ต์ฒจ๋จ์ ํ ์คํธ์ ์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
๋ง์ NLP systems and techniques๋ค์ด ๋จ์ด๋ฅผ atomic unit(์์ ์์)๋ก ๋ค๋ฃฌ๋ค. ์ฆ, ๋จ์ด ๊ฐ์ ์ ์ฌ์ฑ์ ๋ํ ๊ฐ๋ ์ด ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋จ์ํ๊ณ , robustํ๋ฉฐ, '๋ง์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ํ๋ จ๋ ๋จ์ํ ๋ชจ๋ธ'์ด '์ ์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ํ๋ จ๋ ๋ณต์กํ ๋ชจ๋ธ'๋ณด๋ค ๋ฐ์ด๋ ๊ฒ์ด ๊ด์ฐฐ๋๋ ๋ฑ์ ๋ค์ํ ์ฅ์ ๋ค๋๋ฌธ์ ์์ฃผ ์ฌ์ฉ๋๋ค. ๊ทธ ์๋ก N-gram model์ ๋งํ ์ ์๋๋ฐ, ์ค๋๋ ์ N-Gram์ ์ฌ์ค์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด ํ๋ จ์ด ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฌ๋ ๋ง์ ๋ฉด์์ ์ ์ฝ์ ๊ฐ์ง๋ค.
N-Gram model
n-gram์ n๊ฐ์ ์ฐ์์ ์ธ ๋จ์ด ๋์ด์ ์๋ฏธํ๋ค. ๋ค์ ๋งํด, ๊ฐ๊ณ ์๋ ์ฝํผ์ค์์ n๊ฐ์ ๋จ์ด ๋ญ์น ๋จ์๋ก ๋์ ๊ฒ์ ํ๋์ ํ ํฐ์ผ๋ก ๊ฐ์ฃผํ๋ค.
๐ "An adorable little boy is spreading smiles"๋ผ๋ ๋ฌธ์ฅ์ด ์์ ๋, ๊ฐ n์ ๋ํด์ n-gram์ ์ ๋ถ ๊ตฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- unigrams : an, adorable, little, boy, is, spreading, smiles
- bigrams : an adorable, adorable little, little boy, boy is, is spreading, spreading smiles
- trigrams : an adorable little, adorable little boy, little boy is, boy is spreading, is spreading smiles
- 4-grams : an adorable little boy, adorable little boy is, little boy is spreading, boy is spreading smiles
n์ด 1์ผ ๋๋ ์ ๋๊ทธ๋จ(unigram), 2์ผ ๋๋ ๋ฐ์ด๊ทธ๋จ(bigram), 3์ผ ๋๋ ํธ๋ผ์ด๊ทธ๋จ(trigram)์ด๋ผ๊ณ ๋ช ๋ช ํ๊ณ n์ด 4 ์ด์์ผ ๋๋ gram ์์ ๊ทธ๋๋ก ์ซ์๋ฅผ ๋ถ์ฌ์ ๋ช ๋ช ํ๋ค.
์ต๊ทผ, ๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ ์ง๋ณด์ ํจ๊ป ๋งค์ฐ ํฐ ๋ฐ์ดํฐ์ ์ ๋์ฑ ๋ณต์กํ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ์ด ๊ฐ๋ฅํด์ก๊ณ , ์ด๋ ๋จ์ํ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋ฐ์ด๋์๋ค. ์๋ง ๊ฐ์ฅ ์ฑ๊ณต์ ์ธ concept์ ๋จ์ด์ distributed representation์ ์ฌ์ฉ ํ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด, ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐํ Neural Network(์ธ๊ณต์ ๊ฒฝ๋ง)๋ N-gram model์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค.
Distributed Representation
๊ฐ๊ฐ์ ์์ฑ์ ๋ ๋ฆฝ์ ์ธ ์ฐจ์์ผ๋ก ๋ํ๋ด์ง ์๊ณ , ์ฐ๋ฆฌ๊ฐ ์ ํ ์ฐจ์์ผ๋ก ๋์์ ๋์์์ผ์ ํํํ๋ค. ์๋ฅผ ๋ค์ด, ํด๋น ์์ฑ์ 5์ฐจ์์ผ๋ก ํํํ ๊ฒ์ด๋ผ๊ณ ์ ํ๋ฉด ๊ทธ ์์ฑ์ 5์ฐจ์ ๋ฒกํฐ์ ๋์(embedding)์ํค๋ ๊ฒ์ด๋ค.
์๋ฒ ๋ฉ๋ ๋ฒกํฐ๋ ๋์ด์ sparseํ์ง ์๋ค. One-hot encoding์ฒ๋ผ ๋๋ถ๋ถ์ด 0์ธ ๋ฒกํฐ๊ฐ ์๋๋ผ, ๋ชจ๋ ์ฐจ์์ด ๊ฐ์ ๊ฐ๊ณ ์๋ ๋ฒกํฐ๋ก ํํ์ด ๋๋ค. โDistributedโ๋ผ๋ ๋ง์ด ๋ถ๋ ์ด์ ๋ ํ๋์ ์ ๋ณด๊ฐ ์ฌ๋ฌ ์ฐจ์์ ๋ถ์ฐ๋์ด ํํ๋๊ธฐ ๋๋ฌธ์ด๋ค. Sparse representation์์๋ ๊ฐ๊ฐ์ ์ฐจ์์ด ๊ฐ๊ฐ์ ๋ ๋ฆฝ์ ์ธ ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์์ง๋ง, Distribution representation์์๋ ํ๋์ ์ฐจ์์ด ์ฌ๋ฌ ์์ฑ๋ค์ด ๋ฒ๋ฌด๋ ค์ง ์ ๋ณด๋ฅผ ๋ค๊ณ ์๋ค. ์ฆ, ํ๋์ ์ฐจ์์ด ํ๋์ ์์ฑ์ ๋ช ์์ ์ผ๋ก ํํํ๋ ๊ฒ์ด ์๋๋ผ ์ฌ๋ฌ ์ฐจ์๋ค์ด ์กฐํฉ๋์ด ๋ํ๋ด๊ณ ์ ํ๋ ์์ฑ๋ค์ ํํํ๋ ๊ฒ์ด๋ค.
๋ ผ๋ฌธ์ ์ฃผ ๋ชฉ์ ์ ์ ์ต๊ฐ์ ๋จ์ด๋ก ๊ตฌ์ฑ๋ ๋งค์ฐ ํฐ ๋ฐ์ดํฐ์์ ํ๋ฆฌํฐ ๋์ ๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ตํ ์ ์๋ ๊ธฐ์ ๋ค์ ์๊ฐํ๋ ๋ฐ์ ์๋ค. ์ด์ ๊ป ์ ์๋ architecture ์ค์ ์ด๋ค ๊ฒ๋ ์๋ฐฑ๋ง๊ฐ ๋จ์ด๋ฅผ ํ์ตํ๋ ๊ฒ์ ์ฑ๊ณตํ์ง ๋ชปํ์ผ๋ฉฐ, ๋ฒกํฐ์ ํฌ๊ธฐ๋ 50~100 ์ ๋๋ฐ์ ์ฌ์ฉํ์ง ๋ชปํ๋ค.
๋ณธ๊ณ ๋ ๋น์ทํ ๋จ์ด๋ค์ ๊ฐ๊น์ด์ ์๊ณ , multiple degrees of similarity๋ฅผ ๊ฐ๋๋ค๋ ๊ฐ์ ํ์์ vector representations์ ํ๋ฆฌํฐ๋ฅผ ์ธก์ ํ๋ ๊ธฐ์ ์ ์ ์ํ๋ค. ์ด๋ ๊ตด์ ์ด(๋ผํด์ด ๋ฑ)์ ๋ฌธ๋งฅ์์ ๋จผ์ ๊ด์ธก๋์๋ค. ์๋ฅผ ๋ค์ด ์ ์ฌํ ๋จ์ด๋ฅผ ์ฐพ์ ๋, ๋ช ์ฌ๋ ๋ค์ํ ์ด๋ฏธ๋ฅผ ๊ฐ์ง๋๋ฐ ์๋์ ๋ฒกํฐ ๊ณต๊ฐ์ subspace์์ ๋น์ทํ ์ด๋ฏธ๋ฅผ ๊ฐ๋ ๋จ์ด๋ค์ ์ฐพ์ ์ ์๋ค. ๋๋๊ฒ๋, word representation์ ์ ์ฌ๋๋ ๋จ์ํ synatactic regularities(๊ตฌ๋ฌธ ๊ท์น)์ ๋์ด์ ๋ค. ๋จ์ด ๋ฒกํฐ์์ ๋์์ ์ฐ์ฐ์ผ๋ก word offset technique์ ์ฌ์ฉํ๋ฉด ์ ์ด๋ผ๋ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๋จ์ด ์ฌ์ด์ ์ ํ ๊ท์น์ ๋ณด์กดํ๋ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด์ vector representation ์ฐ์ฐ์ ์ ํ๋๋ฅผ ๊ทน๋ํ ์ํฌ ๊ฒ์ด๋ค. ๊ตฌ๋ฌธ ๊ท์น๊ณผ ์๋ฏธ ๊ท์น์ ์ธก์ ํ๊ธฐ ์ํด ์ดํดํ๊ธฐ ์ฌ์ด ์๋ก์ด ํ ์คํธ์ ์ ๋ง๋ค์๊ณ , ๋์ ์ ํ๋๋ก ๊ท์น๋ค์ด ํ์ต๋๋ ๊ฒ์ ๋ณด์๋ค. ๋ํ, ํ๋ จ ์๊ฐ๊ณผ ์ ํ๋๊ฐ ๋จ์ด ๋ฒกํฐ์ ์ฐจ์๊ณผ training ๋ฐ์ดํฐ์ ์์ ์ผ๋ง๋ ์์กดํ๋์ง์ ๋ํด ์ด์ผ๊ธฐ ํ๊ณ ์ ํ๋ค.
์ด์ ์๋ ๋จ์ด๋ฅผ ์ฐ์์ ์ธ ๋ฒกํฐ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ผ๋ฉฐ, ๊ทธ ์ค์์๋ NNLM(neural network language model)์ ๊ดํ ๋
ผ๋ฌธ์์ ์ ์ํ ๊ฒ๋ค์ด ์ ์๋ ค์ ธ ์๋ค.A neural probabilistic language model ๋
ผ๋ฌธ์์ ์ ์๋ ๋ชจ๋ธ์ Linear Projection Layer์ Non-Linear Hidden Layer ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Feedforward Neural Network๋ฅผ ํตํด ๋จ์ด ๋ฒกํฐ ํํ๊ณผ ํต๊ณํ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ๊ฒฐํฉ์ ํ์ตํ๋๋ฐ ์ฌ์ฉ๋๋ค.
๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ๊ตฌ์กฐ์ธ NNLM์ Language Modeling for Speech Recognition in Czech, Neural network based language models for higly inflective languages ๋
ผ๋ฌธ์์ ์ ์ํ๋ค. ๋จผ์ , ๋จ์ด ๋ฒกํฐ๋ค์ single hidden layer๋ฅผ ๊ฐ๋ Neural network์ ์ํด ํ์ต ๋๋ค. ๊ทธ ๋จ์ด ๋ฒกํฐ๋ค์ NNLM์ ํ์ตํ๋๋ฐ ์ฌ์ฉ๋๋ฏ๋ก ๋จ์ด ๋ฒกํฐ๋ค์ ๋น๋ก ์ ์ฒด NNLM์ ๊ตฌ์ฑํ์ง ์์๋ ํ์ต๋๋ค. ์ด ์์
์ ํตํด ์ง์ ์ ์ผ๋ก ๊ตฌ์กฐ๋ฅผ ํ์ฅํ์ฌ, ๋จ์ด ๋ฒกํฐ๊ฐ ๊ฐ๋จํ ๋ชจ๋ธ์ ์ํด ํ์ต๋์ด์ง๋ ์ฒซ๋ฒ์งธ ๋จ๊ณ์ ์ฃผ๋ชฉํ๋ค.
์ด ๋จ์ด ๋ฒกํฐ๋ค์ ๋ง์ NLP program์ ์์ฒญ๋ ํฅ์๊ณผ ๋จ์ํ์ ์ฌ์ฉ๋ ์ ์์ ๊ฒ์ด๋ค. ๋จ์ด ๋ฒกํฐ์ ์์ธก์ ๋ค๋ฅธ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ฌ์ฉํ๋๋ฐ ์คํ๋๊ณ , ๋ค์ํ ๋จ์ด corpora๋ฅผ ํ์ตํ๋ค. ๋จ์ด ๋ฒกํฐ ๊ฒฐ๊ณผ์ ์ผ๋ถ๋ ๋ฏธ๋ ์ฐ๊ตฌ์ ๋น๊ต๋ฅผ ์ํด ์ฌ์ฉ ๊ฐ๋ฅํ๊ฒ ๋๋ค. ํ์ง๋ง ์ด ๊ตฌ์กฐ๋ค์ ํ์ต์ ํ๊ธฐ ์ํด ๋งค์ฐ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ปค์ง๋ฉฐ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค.
LSA์ LDA๋ฅผ ํฌํจํ ๋ง์ ๋ค์ํ ์ข
๋ฅ์ ๋ชจ๋ธ๋ค์ด ๋จ์ด์ ๊ณ์์ ์ธ ํํ์ ์ํด ์ ์๋์๋ค. ๋ณธ๊ณ ์์๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ํตํด ํ์ต๋ ๋จ์ด์ distributed representation์ ์ฃผ๋ชฉํ ๊ฒ์ด๋ค. Strategies for Training Large Scale Neural Network Language Models์ ๋น์ทํ๊ฒ, ๋ชจ๋ธ์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๋ชจ๋ธ์ ์์ ํ ํ๋ จ์ํค๊ธฐ ์ํด ์ก์ธ์ค ํด์ผ ํ๋ ๋งค๊ฐ ๋ณ์์ ์๋ก ์ ์ํ๋ค. ๋ค์์ผ๋ก, ์ ํ๋๋ฅผ ๊ทน๋ํํ๊ธฐ ์ํด ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ต์ํ ์ํจ๋ค.
Training comprexity๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
๋ training epochs์ ์, ๋ training set์ ๋จ์ด ์, ๋ ๊ฐ ๋ชจ๋ธ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ ์๋จ
- ์ผ๋ฐ์ ์ผ๋ก E = 3~50, T๋ 10์ต๊ฐ ์ด์์ผ๋ก ์ ์๋จ
- ๋ชจ๋ ๋ชจ๋ธ์ stochastic gradient descent์ backpropagation์ ์ด์ฉํ์ฌ ํ์ต
A neural probabilistic language model์์ ์ ์๋ NNLM ๋ชจ๋ธ์ Input, Projection, Hidden, Output layer ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. Input layer์์, ๊ฐ์ ์ ํ ๋จ์ด๋ค์ด 1-of- coding์ผ๋ก ์ธ์ฝ๋ฉ๋๋ฉฐ, ์ ์ฒด vocabulary์ ํฌ๊ธฐ๊ฐ ์ธ ๊ฒฝ์ฐ ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ ์ฃผ์ด์ง๋ค. ๋ฒกํฐ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง projection layer๊ฐ Input layer๊ฐ ๋๋ค.
NNLM ๊ตฌ์กฐ๋ projection layer๊ฐ ์ด์ดํ ์๋ก projection layer์ hidden layer ๊ฐ์ ๊ณ์ฐ์ด ๋ณต์กํ๋ค. ์ผ ๋, ๋ 500~2000์ด๋ฉฐ, ๋ 500์์ 1000๊ฐ์ด๋ค. ๊ฒ๋ค๊ฐ hidden layer๊ฐ ๋ชจ๋ ๋จ์ด์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๋ ๋ฐ์ ์ฌ์ฉ๋๊ธฐ์ output layer์ ์ฐจ์์ ๊ฐ ๋๋ค. ๋ฐ๋ผ์, ๋งค training example๋ง๋ค ๊ณ์ฐ ๋ณต์ก๋๋ ๋ค์๊ณผ ๊ฐ๋ค.
- dominating term์
์ด๋ฅผ ํผํ๊ธฐ ์ํ ๋ช ๊ฐ์ง ์ค์ฉ์ ์ธ ํด๊ฒฐ์ฑ
์ด ์๋ค(Hierarchical version of softmax, avoiding normalized models). ๋จ์ด์ ์ด์ง๋ถ๋ฅ representation๊ณผ ํจ๊ป, output units์ ์๋ฅผ ๊น์ง ๋ฎ์ถ ์ ์๋ค. ์ด์ ๋ฐ๋ผ ๋๋ถ๋ถ์ ๋ณต์ก๋๊ฐ ์ ์ํด ๋ฐ์๋๋ค.
๋ณธ๊ณ ์์๋ Hierachical softmax๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๋จ์ด๊ฐ Huffman binary tree๋ก ๋ํ๋๋ ๋ฐฉ๋ฒ์ด๋ค. ๋จ์ด์ ๋น๋ ์๊ฐ NNLM์์ class๋ฅผ ์ป๊ธฐ์ํด ์ ์๋ํ๋ค๋ ์ด์ ์ ๊ด์ธก๋ค์ ๋ฐ๋ฅธ๋ค. Huffman trees๋ ๋น๋ ๋์ ๋จ์ด๋ค์ ์งง์ ์ด์ง ์ฝ๋๋ฅผ ํ ๋นํ๊ณ , ์ด๋ ํ๊ฐ๋์ด์ผ ํ๋ output unit์ ์๋ฅผ ๋ฎ์ถฐ์ค๋ค. ๊ท ํ์กํ ์ด์ง ํธ๋ฆฌ๋ ํ๊ฐ๋์ด์ผ ํ๋ ์ output์ ์๊ตฌํ๋ ๋ฐ๋ฉด, Hierachical softmax์ ๊ธฐ๋ฐํ huffman tree๋ ์ ๋ํด์๋ง์ ์๊ตฌํ๋ค. ์๋ฅผ ๋ค์ด ๋จ์ด ์ฌ์ด์ฆ๊ฐ ๋ฐฑ๋ง๊ฐ์ ๋จ์ด๋ผ๋ฉด, ์ด ๊ฒฐ๊ณผ๋ ํ๊ฐ์ ์์ด์ ์๋๋ฅผ ๋ ๋ฐฐ ๋ ๋น ๋ฅด๊ฒ ํ๋ค. ์์์ ๊ณ์ฐ์ ๋ณ๋ชฉํ์์ด ์ผ์ด๋๋ NNLM์์๋ ์ค์ํ ๋ฌธ์ ๊ฐ ์๋์ง๋ผ๋, ๋ณธ๊ณ ๋ hidden layer๊ฐ ์๊ณ softmax normalization์ ํจ์จ์ฑ์ ์ฃผ๋ก ์์กดํ๋ architectures๋ฅผ ์ ์ํ ๊ฒ์ด๋ค.
Recurrent Neural Net Language Model(RNNLM)์ ๋ฌธ๋งฅ์ ๊ธธ์ด(the order of the model N)๋ฅผ ๋ช
์ํด์ผํ๋ ๊ฒ๊ณผ ๊ฐ์ NNLM์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด์ ์๊ฒจ๋ฌ๋ค. ์ด๋ก ์ ์ผ๋ก RNN์ ๋ ๋ณต์กํ ํจํด๋ค์ ์์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ด์ฉํด์ ํจ์จ์ ์ผ๋ก ํํํ ์ ์๋ค. RNN ๋ชจ๋ธ์ projection layer๊ฐ ์๊ณ , input, hidden, output layer๋ง ์๋ค. ์ด ๋ชจ๋ธ์ ํน๋ณํ ์ ์ recurrent matrix๊ฐ hidden layer ๊ทธ ์์ฒด์ ์๊ฐ์ ํ๋ฆ์ ์ฐ๊ฒฐ์ ๊ฐ๊ณ ์ฐ๊ฒฐ๋์ด ์๋ค๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ recurrent model์ด short term memory๋ฅผ ์์ฑํ๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ๊ณผ๊ฑฐ์ ์ ๋ณด๋ ์ด์ ๋จ๊ณ์ hidden layer์ ์ํ์ ํ์ฌ์ input์ ๊ธฐ๋ฐํ์ฌ ์
๋ฐ์ดํธ ๋ hidden layer์ state๋ก ํํ๋ ์ ์๋ค.
RNN model์ ํ๋ จ ๋น ๋ณต์ก๋๋ ๋ค์๊ณผ ๊ฐ๋ค.
word represatation ๋ hidden layer ์ ๊ฐ์ ์ฐจ์์ ๊ฐ๊ณ , ๋ ๊ณ์ธต์ ์ํํธ๋งฅ์ค๋ฅผ ์ฌ์ฉํด์ ๋ก ์ถ์๋ ์ ์๋ค. ๋๋ถ๋ถ์ ๋ณต์ก๋๋ ์์ ๋์จ๋ค.
๊ฑฐ๋ํ data set์ ๋ํด NNLM๊ณผ ์ด ๋ ผ๋ฌธ์์ ์ ์๋ ์๋ก์ด ๋ชจ๋ธ๋ค์ ํฌํจํ์ฌ DistBelief๋ผ๊ณ ๋ถ๋ฆฌ๋ top of large-scale distributed framework์ธ ๋ช๋ช ๋ชจ๋ธ๋ค์ ์คํํ๋ค. ์ด framework๋ ์ฐ๋ฆฌ๊ฐ Parallelํ๊ฒ ๊ฐ์ ๋ชจ๋ธ์ ๋ฐ๋ณตํด์ ์คํํ ์ ์๊ฒ ํ๊ณ , ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์งํ๋ centralized server๊ฐ ํตํด ๊ฐ replica๋ค์ ๊ทธ๊ฒ์ gradient์ update์ ๊ฐ์๋ค. ์ด parallel train์์, ์ฐ๋ฆฌ๋ Adagrad๋ฅผ ์ฌ์ฉํ ๋ฏธ๋๋ฐฐ์น ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด framework์์ 100๊ฐ, ๋๋ ๋ช๋ฐฑ๊ฐ์ replica๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ฉฐ, ์ด๋ data center์ ๋ค๋ฅธ ๊ธฐ๊ณ๋ค์ ๋ง์ CPU core๋ฅผ ์ฌ์ฉํ๋ค.
์ด ์น์ ์์๋ computational complexity๋ฅผ ์ต์ํํ๋ฉด์ distributed representation์ ํ์ตํ๊ธฐ ์ํ ๋๊ฐ์ง ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค. ์ด์ ์น์ ์์์ main observation์ ๋๋ถ๋ถ์ ๋ณต์ก๋๊ฐ non-linear hidden layer์ ์ํด ์๊ธด๋ค๋ ๊ฒ์ด๋ค.
์ฒซ๋ฒ์งธ ์ ์๋ ์ํคํ ์ณ๋ non-linear hidden layer๊ฐ ์ ๊ฑฐ๋๊ณ projection layer๊ฐ ๋ชจ๋ ๋จ์ด๋ฅผ ์ํด ๊ณต์ ๋๋ feedforward NNLM๊ณผ ๋น์ทํ๋ค. ์ฐ๋ฆฌ๋ ๋จ์ด์ ์์๊ฐ projection์ ์ํฅ์ ๋ผ์ง์น ์๊ธฐ ๋๋ฌธ์ ์ด ๊ตฌ์กฐ๋ฅผ bag-of-word ๋ชจ๋ธ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๊ฒ๋ค๊ฐ, ์ฐ๋ฆฌ๋ ๋ฏธ๋๋ก๋ถํฐ ๋จ์ด๋ฅผ ์ฌ์ฉํ๋ค. ์ฆ, ์ฐ๋ฆฌ๋ input์ผ๋ก 4 future and 4 history words๋ก log-linear classifier์ ๊ตฌ์ถํ์ฌ ๋ค์ section์์ ์๊ฐํ task์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค. ํ๋ จ์ ๋ณต์ก๋๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฐ๋ฆฌ๋ ์ด ๋ชจ๋ธ์ ์์ผ๋ก CBOW๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค. ๋ณดํต์ bag-of-word ๋ชจ๋ธ๊ณผ๋ ๋ค๋ฅด๊ฒ, ์ด๊ฒ์ context์ continuous distributed representation๋ฅผ ์ฌ์ฉํ๋ค. input๊ณผ projection layer ์ฌ์ด์ ๊ฐ์ค์น ๋งคํธ๋ฆญ์ค๋ NNLM๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋ชจ๋ ๋จ์ด ์์น๋ฅผ ์ํด ๊ณต์ ๋๋ค.
๋๋ฒ์งธ ์ํคํ ์ณ๋ CBOW์ ๋น์ทํ์ง๋ง, context์ ๊ธฐ๋ฐํด ํ์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋์ ์ ๊ฐ์ ๋ฌธ์ฅ์ ๋ค๋ฅธ ๋จ์ด์ ๊ธฐ๋ฐํ ๋จ์ด์ ๋ถ๋ฅ๋ฅผ ๊ทน๋ํํ๋ค. ๋ ์ ํํ ๋งํ์๋ฉด, ์ฐ๋ฆฌ๋ ๊ฐ ํ์ฌ์ ๋จ์ด๋ฅผ continuous projection layer์ ํจ๊ป log-linear classifier์ ์ฌ์ฉํ๊ณ , ํ์ฌ ๋จ์ด ์๋ค์ ํน์ ๋ฒ์์์ ๋จ์ด๋ฅผ ์์ธกํ๋ค. range๋ฅผ ์ฆ๊ฐ์ํค๋ฉด ๋จ์ด ๋ฒกํฐ์ quality์ ํฅ์์ํค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋, ์ด๋ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ฆ๊ฐ์ํจ๋ค. ๊ฑฐ๋ฆฌ๊ฐ ๋จผ ๋จ์ด๋ ๊ฐ๊น์ด ๋จ์ด๋ณด๋ค ํ์ฌ ๋จ์ด์ ์ฐ๊ด์ฑ์ด ๋จ์ด์ง ๊ฒ์ด๋ฏ๋ก ํ๋ จ ์ธํธ์์ ์ด๋ฐ ๋จ์ด๋ค์ ์ํ๋ง์ ์ ๊ฒ ํจ์ผ๋ก์จ ๊ฐ์ค์น๋ฅผ ์ค์๋ค. ์ด ์ํคํ ์ณ์ ํ๋ จ ๋ณต์ก๋๋ ๋ค์์ ์์ ๋น๋กํ๋ค.
: ๋จ์ด์ ์ต๋ ๊ฑฐ๋ฆฌ
https://wikidocs.net/21692
https://dreamgonfly.github.io/blog/word2vec-explained/