텍스트마이닝에서 딥러닝이 적용되기 이전 많이 사용한 기법이다.
수식자체가 간단해서 어려운 내용이 별로 없었다.
교수님께서 설명을 굉장히 잘해주셔서 이해하기가 쉬웠다.
NLP의 큰 종류에 대해서도 다뤄주셨다.
Uinque한 Word들을 모아서 Vocabulary를 구축한다.
Example Sentences : "John really really love this movie", "Jane really likes this song"
Vocabulary : {"John", "really", "loves", "this", "movie", "Jane", "likes", "song"}
각각의 word를 one-hot vector로 만든다.
단어쌍간의 거리는 모두 sqrt(2) 이고, cosine 유사도는 0이다.
문장/문서의 one-hot vector의 합을 Bag-of-Words라고 부른다.
Sentence 1 : "John really really loves this movie" = [1 2 1 1 1 0 0 0 0]
Sentence 2 : "Jane really likes this song" = [0 1 0 1 0 1 1 1]
어떻게 텍스트를 벡터로 만들 생각을 했을지 신기하다.
데이터가 몹시 커졌을 때 Word2Vec이 어떤 그래프를 그릴지 궁금하다.
이론을 듣고나서 이게 실제로 좋은 결과값을 낸다는 것이 신기했다.