
텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것이다. 인공지능 알고리즘은 숫자형의 피처기반 데이터만 입력받을 수 있기 때문에, 텍스트를 인공지능 알고리즘에 적용하기 위해선 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가가 매우 중요하다.
이렇게 텍스트를 변환하는 것을 피처 벡터화(Feature Vectorization) 또는 피처 추출(Feature Extraction)이라고 한다.
피처 벡터화 방법에는 BOW(Bag of Words)와 Word2Vec방법이 있다.