GloVe 글로브 (Global Vectors for Word Representation)
: 임베딩 된 중심단어와 주변단어 벡터의 내적(예측 기반, Word2Vec)이 전체 코퍼스에서의 동시등장확률(카운트 기반, LSA)이 되도록 만드는 것. 이를 만족하도록 임베딩 벡터를 만드는 것이 목적
(Word2Vec만큼 뛰어난 성능을 보임)
- LSA(Latent Semantic Analysis) : 카운트 기반 - TF-IDF 행렬과 같이 각 문서에서의 각 단어의 빈도수를 카운트 한 행렬이라는 전체적인 통계정보를 입력으로 받아 차원을 축소(Truncated SVD)하여 잠재된 의미를 끌어내는 방법론 (단어 간 유추 작업 성능 떨어짐)
- Word2Vec : 예측 기반 - 실제값과 예측값에 대한 오차를 손실함수를 통해 줄여나가며 학습하는 예측 기반의 방법론 (윈도우 크기 내에서만 주변단어를 고려하기 때문에 코퍼스의 전체적인 통계정보를 반영하지 못함)
Ex)
I like deep learning
I like NLP
I enjoy flying
동시등장확률 = P(k|i) = (중심단어(i), 주변단어(k)) i가 등장했을때, k가 등장한 횟수(조건부 확률)
Glove 작동과정 증명