BOW
: Bag of Word
- 문장을 하나의 벡터로 만드는 방법
- 문장에 들어있는 단어의 컬럼만 1로 나머지 컬럼은 0으로 표현.
=> BOW는 가장 빈도가 높은 것이 중요
tf-idf
: term frequency-inverse document frequency)
- tf란 단어가 각 문서에서 발생한 빈도 (단어가 등장한 '문서'의 빈도를 df라 한다)
- 적은 문서에서 발견될수록 가치 있는 정보라고 할 수 있다.
- 많은 문서에 등장하는 단어일수록 일반적인 단어이며, 이러한 공통적인 단어는 tf가 크다고 하여도 비중을 낮추어야 분석이 제대로 이루어질 수 있다.
- 따라서 단어가 특정 문서에만 나타나는 희소성을 반영하기 위해서 idf(df의 역수)를 tf에 곱한 값을 사용한다.
=> 1. 많이 나왔는가? -> 각 문서에서 발생한 빈도
2. 문서에서 단어가 발생한 빈도 -> 전체 문서중에서 해당 단어가 들어가 있는 문서의 수 -> 역수를 사용 -> 적은 문서에서 발견될 수록 가치 있는 정보이다.
3. 1번과 2번값을 곱해서 큰수가 나올수록 중요한 단어