Machine Learning | Text Analysis - 1(개념)
텍스트 분석
- 비정형 텍스트에서 의미 있는 정보를 추출하는 것
텍스트 분석 기본 프로세스
1. 텍스트 전처리
: feature로 만들기 전 클렌징(대/소문자, 특수문자 제거) 작업 등의 텍스트 정규화 작업
2. feature / vector 추출
: 가공된 텍스트에서 feature를 추출 후 vector값 할당
3. ML 모델
: feature vector화 된 데이터셋에 ML 모델을 적용
텍스트 분석 영역
1. 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측 하는 기법
ex) 스팸 메일
2. 감성 분석 : 텍스트에서 나타나는 주관적인 요소(감정)를 분석 하는 기법
ex) 긍정 리뷰, SNS 감정 분석
3. 텍스트 요약 : 텍스트 내에서 중요한 주제를 추출하는 기법
ex) Topic Modeling
4. 텍스트 군집화, 유사도 측정 : 비슷한 유형의 문서를 군집화(그룹) 하는 기법
ex) 비슷한 문서끼리 정리
텍스트 분석 기초
피처 벡터화
텍스트를 단어 기반으로 추출 후 빈도수를 이용하여 숫자값을 부여 후 해당 값을 벡터화로 변환
머신 러닝 알고리즘을 이용하기 위해서는 숫자형의 데이터여야 하기 때문임
BOW, Word2Vec 방식이 존재