기초자연어처리-3.텍스트표현방법

milkbuttercheese·2023년 3월 6일
0

자연어처리기초

목록 보기
3/16

자연어처리에서의 텍스트 표현방법

  • 종류
    - DTM(Document Term Matrix)
    - TF-IDF(Term Frequency-Inverse Document Frequency)
  • 응용
    - 문서내 단어의 중요도 평가
    - 문서의 핵심어 추출
    - 검색 엔진에서의 검색 결과 순위 결정
    - 문서들간 유사도 측정

Bag of Words란?

  • 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
  • BoW를 만드는 두 가지 과정
    1. 각 단어에 고유한 정수 인덱스 부여 (단어 집합 생성)
    2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듬
  • 한국어 예제
    - 문서1 : 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.
    - 문서1에 대한 BoW 만들기

DTM이란?

  • 문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것이다
  • 희소 표현(Sparse representation)의 문제점
    - 코퍼스가 방대한 데이터라면 문서 벡터의 차원은 수만,수십만 이상의 차원을 가질 수도 있다. 그에 반해 많은 문서 벡터가 대부분의 값이 0을 가질 수도 있어 상당한 공간적 낭비를 하게 된다

TF-IDF(Term Frequency-Inverse Document Frequency)

  • 문서내 단어들의 중요도를 측정하는 방법이다
  • 단어의 빈도과 더불어 단어의 중요도를 가중치로 주는 방법이다.
  • 용어
    - tf(d,t)tf(d,t) (단어의 빈도)
    - 특정 문서 d에서의 특정 단어 t의 등장 횟수 비율
    - tf(d,t)=fttf(d,t)=f_t
    - ff 는 등장횟수
    - df(t)df(t) (단어의 중요도)
    - 특정 단어 t가 등장한 문서의 수. 이때 하나의 문서에서 몇번 등장하였는가는 신경쓰지 않는다
    - TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단한다
    		- $idf(d,t)=log(\displaystyle\frac{n}{1+df(t)})$
    			- $df(t)$에 반비례하는 수
    			- $n$ 는 총 문서수
profile
안녕하세요!

0개의 댓글