Word2Vec(Word Embedding to Vector)
주위 단어가 비슷하면 해당 단어의 의미는 유사하다 라는 아이디어
단어를 트레이닝 시킬 때 주위 단어를 label로 매치하여 최적화
단어를 의미를 내포한 dense vector로 매칭 시키는 것
Word2Vec은 분산 된 텍스트 표현을 사용하여 개념 간 유사성을 본다. 예를 들어, 파리와 프랑스가 베를린과 독일이 (수도와 나라) 같은 방식으로 관련되어 있음을 이해한다.
Word2Vec 기법은 CBOW와 Skip-Gram기법이 있다.
CBOW(continuous bag-of-words)는 전체 텍스트로 하나의 단어를 예측하기 때문에 작은 데이터셋일 수록 유리하다.
아래 예제에서 __ 에 들어갈 단어를 예측한다.
1) __가 맛있다.
2) __를 타는 것이 재미있다.
3) 평소보다 두 __로 많이 먹어서 __가 아프다.
Skip-Gram은 타겟 단어들로부터 원본 단어를 역으로 예측하는 것이다. CBOW와는 반대로 컨텍스트-타겟 쌍을 새로운 발견으로 처리하고 큰 규모의 데이터셋을 가질 때 유리하다.
배라는 단어 주변에 올 수 있는 단어를 예측한다.
1) 배가 맛있다.
2) 배를 타는 것이 재미있다.
3) 평소보다 두 배로 많이 먹어서 배가 아프다.
https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/tutorial-part-2.ipynb
Glove
https://joyhong.tistory.com/139
파이썬으로 한글만 추출하기
https://doubly12f.tistory.com/64