[NLP] Word Embedding : Word2Vec, Glove

윰진·2023년 3월 6일

NaverAIBoostCamp정리

목록 보기

28/30

2강. Word Embedding

Word2Vec 과 Glove 는 하나의 차원에 단어의 모든 의미를 표현하는 one-hot-encoding 과 달리 단어의 distributed representation을 학습하고자 고안된 모델

GOAL

Word2Vec 과 GlobVe 가 단어를 학습하는 원리를 중심으로 이해

Further Questions

Word2Vec 과 Glove 알고리즘이 가지고 있는 단점은 ?

Word2Vec 의 단점은 vocabulary 의 크기가 클 때 모델이 softmax 함수를 사용하여 학습하기 어려운 것이다.

GloVe 의 단점은 단어의 co-occurence 행렬이 꽤 많은 양의 메모리를 요구하고, co-occurence 행렬과 관련된 hyper parameter 를 변경할 경우 행렬을 다시 계산해야해서 시간이 소요된다.

두 알고리즘 모두 vocabulary 외의 단어를 표현하지 못하고, 반의어 쌍을 분리하기 어려운 문제점이 있다.

Further Reading

Word2Vec, NeurIPS'13

GloVe, EMNLP'14

Word Emebedding이란, 단어들을 특정 차원으로 이루어진 공간 상의 한 점으로 표현하는 것
Word Emebedding이란, 단어들을 점의 좌표로 나타내는 벡터로 변환해주는 기법

${\rightarrow}$ 비슷한 의미를 가지는 단어가 좌표공간 상에 비슷한 위치의 점으로 맵핑

단어 간 의미 유사도를 잘 반영한 벡터 표현을 제공한다.

01. Word2Vec

🐬 맥락 속 단어에서 단어의 벡터 표현에 대한 알고리즘

같은 문장에서 나타난 인접한 단어들의 의미적 연관성이 높다는 점을 이용

비슷한 맥락에서 사용되는 단어들은 의미적 유사도가 높을 것이라는 가정

KEY SENTENCE
입력 단어와 출력 단어의 벡터 내적 값이 최대한 커지도록 학습하는 것

1 ) 방법

a ) 문장 내의 unique 한 단어들로 사전을 구축한다.

사전의 각 단어는 voca size 만큼의 dimension 을 가지는 one-hot-vector 형태

b ) Sliding Window 방식으로 기준 단어 앞뒤로 나타난 단어 각각과 입출력 단어 쌍을 구성한다.

주어진 학습 데이터에 대해 각 문장 별로 sliding window 를 적용한다.
중심, 주변 단어 각각을 단어 쌍으로 구성하여 word2vec 의 학습 데이터를 구성한다.

예를 들어 I study math. ( window size = 3 )

( I, study )
( study, I )
( study, math )

softmax 함수를 통해 3차원 벡터가 확률 값을 가지도록한다.

softmax 함수의 입력인 logit 으로 전달되는 값이 양의 무한대에 가까울수록 해당 class 로 분류 확률이 높아진다.

추론된 확률 분포 벡터와 실제 값의 거리가 최대한 가깝도록 softmaxloss 를 줄이는 방향으로 학습된다.
${\Rightarrow}$ 입력 단어의 ${W_1}$ 상에서의 벡터와 출력 단어의 ${W_2}$ 상에서의 벡터의 내적 값이 최대한 커지도록 한다.

${W_1}$ : Linear Transformation Matrix
- one-hot-vector 자리에 해당하는 column vector 를 뽑아오는 과정
hidden layer (hyper parameter) : word embedding 을 구성하는 좌표 공간의 차원 수와 동일