기초자연어처리-3.텍스트표현방법

milkbuttercheese·2023년 3월 6일

자연어처리기초

목록 보기

3/16

종류
- DTM(Document Term Matrix)
- TF-IDF(Term Frequency-Inverse Document Frequency)
응용
- 문서내 단어의 중요도 평가
- 문서의 핵심어 추출
- 검색 엔진에서의 검색 결과 순위 결정
- 문서들간 유사도 측정

단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
BoW를 만드는 두 가지 과정
1. 각 단어에 고유한 정수 인덱스 부여 (단어 집합 생성)
2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듬
한국어 예제
- 문서1 : 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.
- 문서1에 대한 BoW 만들기

문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것이다
희소 표현(Sparse representation)의 문제점
- 코퍼스가 방대한 데이터라면 문서 벡터의 차원은 수만,수십만 이상의 차원을 가질 수도 있다. 그에 반해 많은 문서 벡터가 대부분의 값이 0을 가질 수도 있어 상당한 공간적 낭비를 하게 된다

안녕하세요!