텍스트 마이닝
텍스트 데이터로부터 유용한 인사이트를 발굴하는 Data Mining의 한 종류
자연어 처리와 문서처리 방법을 적용하여 유용한 정보를 추출/가공 하는 것을 목적으로 하는 기술
- Data mining : 빅데이터 안에서 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
자연어
인간이 일상생활에서 사용하는 언어
- 인간이 정보를 전달하는 수단
- 특정 집단에서 사용되는 모국어의 집합 (한국어, 영어, 일본어, 중국어 등)
- 인공언어와 대비되는 개념


텍스트 마이닝의 영역
- 텍스트분류
- 감성분석
- 텍스트 요약
- 텍스트 군집화 및 유사도 분석
텍스트 데이터의 구조

텍스트 마이닝 분석 프로세스
텍스트 수집 -> 전처리 -> 토큰화 -> 특징 추출 -> 데이터 분석
텍스트 데이터 수집
데이터 전처리

토큰화

토근화 종류

n-gram

특징값 추출
