Count-based Representation
자연어(Natural Language)
- 자연어 혹은 자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념
자연어처리(Natural Language Processing, NLP)
자연어를 컴퓨터로 처리
하는 기술
- 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합
NLP 응용사례
- 텍스트 요약
- 자동 질의응답 시스템
- 대화 시스템
- 기계번역
벡터화 : 컴퓨터는 자연어 자체를 받아들일 수 없음으로 컴퓨터가 이해할 수 있도록 벡터로 만들어주어야 함
- 등장횟수 기반 :
단어
가 문서에 등장하는 횟수
- Bag-of-Words(TF)
- 단어들의 순서는 고려하지 않고 단어들의 빈도만 고려한 수치화 표현 방법
- CountVectorizer
- TF-IDF
- TF : 특정 단어의 등장 빈도
- IDF : 특정 단어가 나타나는 문서 수
- TF-IDF : 많이 등장하는 단어들에게는 일종의 패널티를 주어서 단어 빈도의 스케일을 맞춰주는 기법
- 분포 기반 : 타겟 단어
주변에 있는 단어
를 기반
- Word2Vex
- 단어를 바로 벡터로 변환
- 벡터로 바꾸어야 유사도 같은 계산이 가능함
- fastText
- n의 값에 따라 단어가 얼마나 분리되는지 결정
전처리
- 내장메소드
- 정규표현식
- 특정 규칙이 있는 문자열 집합을 추출할 때 자주 사용되는 기법
- 불용어 처리
- 통계적 트리밍
- 단어(토큰)의 분포를 나타냈을 때 전체 분포 중 몇%(예: 0.01%) 아래까지는 분석에 사용하지 않도록 삭제하는 방법이다.
- 어간 추출
- 표제어 추출