텍스트를 기계가 이해할 수있는 수단으로 만들어주는 것. 형태로 바꿔주는 작업.
: Bag of Words
텍스트 데이터 전처리 : NLP
특수 문자 제거, 토큰화. 일반적으로는 공백으로 잘라내는 것. 한국어는 조사, 형태소로 나누는 작업도 필요함.
bow 모델에서 순서는 중요하지 않으며 파이썬 딕셔너리를 사용하면 편함.
긍/부정의 BoW는 기계학습 알고리즘으로 자동으로 학습되게 한다. 학습을 위한 TRAINING에 긍정 문서 2000개, 부정문서 2000개 레이블이 붙은 지도학습을 시도. 문서 셋에 나온 문자들의 빈도를 측정.