해당 포스팅은 다음의 위키독스 (https://wikidocs.net/book/2155)를 읽고 정리한 개념임을 밝힙니다
토큰화된 문장에서 각 토큰에 대해 값으로 나타낼 때 단어간의 어울림을 고려하느냐에 따라 두가지 방법으로 분류 될 수 있다
국소 표현 : 주변 단어와의 어울림은 고려하지않고 오로지 그 단어자체만 보고 매핑
분산 표현 : 주변 단어와의 어울림도 고려해서 맵핑
- puppt, cute, lovely : 주변으로 정의함 puppy는 cute, lovely한 느낌이다
다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임.
=> 각 문서에 대한 BoW를 하나의 행렬로 만든 것 (sklearn CountVectorizer)
=> 각 단어가 문서와 얼마나 연관성이 있는가