용어
- tf(d,t) (단어의 빈도)
- 특정 문서 d에서의 특정 단어 t의 등장 횟수 비율
- tf(d,t)=ft
- f 는 등장횟수
- df(t) (단어의 중요도)
- 특정 단어 t가 등장한 문서의 수. 이때 하나의 문서에서 몇번 등장하였는가는 신경쓰지 않는다
- TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단한다 - $idf(d,t)=log(\displaystyle\frac{n}{1+df(t)})$
- $df(t)$에 반비례하는 수
- $n$ 는 총 문서수