LSA는 DTM이나 TF-IDF 행렬과 같이 각 문서에서의 각 단어의 빈도수를 카운트 한 행렬이라는 전체적인 통계 정보를 입력으로 받아 차원을 축소(Truncated SVD)하여 잠재된 의미를 끌어내는 방법론다. 반면, Word2Vec는 실제값과 예측값에 대한 오차를 손실 함수를 통해 줄여나가며 학습하는 예측 기반의 방법론이다
단어 가 등장했을 때 주변에 단어 가 등장하는 횟수를 카운트 하는 것이다. 이때 주변으로 기준삼는 영역은 윈도우 크기 N으로 좌우 N개의 단어다
동시등장확률 는 특정 단어 의 전체 등장 횟수를 카운트하고, 특정 단어 가 등장했을 때, 어떤 단어 가 등장한 횟수를 카운트하여 계산한 조건부 확률이다
관련 용어
임베딩 벡터의 정의
- 임베딩 된 중심 단어와 주변 단어 벡터의 내적이 전체 코퍼스에서의 동시 등장 확률이 되도록 만드는 것'
- 와 같은 형태를 생각할 수 있고
- 더 정확히는 GloVe는 아래와 같은 관계를 가지도록 임베딩 벡터를 정의하였다
-
Glove의 수학적 증명은 상당히 어려워 보여서 패스함..
<ap, app, ppl, ple, le>,<apple>