텍스트 마이닝

김명준·2023년 12월 27일

MachineLearing

목록 보기
8/8

BOW

: Bag of Word

  • 문장을 하나의 벡터로 만드는 방법
  • 문장에 들어있는 단어의 컬럼만 1로 나머지 컬럼은 0으로 표현.
    => BOW는 가장 빈도가 높은 것이 중요

tf-idf

: term frequency-inverse document frequency)

  • tf란 단어가 각 문서에서 발생한 빈도 (단어가 등장한 '문서'의 빈도를 df라 한다)
  • 적은 문서에서 발견될수록 가치 있는 정보라고 할 수 있다.
  • 많은 문서에 등장하는 단어일수록 일반적인 단어이며, 이러한 공통적인 단어는 tf가 크다고 하여도 비중을 낮추어야 분석이 제대로 이루어질 수 있다.
  • 따라서 단어가 특정 문서에만 나타나는 희소성을 반영하기 위해서 idf(df의 역수)를 tf에 곱한 값을 사용한다.

=> 1. 많이 나왔는가? -> 각 문서에서 발생한 빈도
2. 문서에서 단어가 발생한 빈도 -> 전체 문서중에서 해당 단어가 들어가 있는 문서의 수 -> 역수를 사용 -> 적은 문서에서 발견될 수록 가치 있는 정보이다.
3. 1번과 2번값을 곱해서 큰수가 나올수록 중요한 단어

profile
스인개 본점 빅데이터 과정

0개의 댓글