[bag of words]

유가연·2022년 2월 5일
0

TIL

목록 보기
13/32

텍스트를 기계가 이해할 수있는 수단으로 만들어주는 것. 형태로 바꿔주는 작업.

감정분석 알고리즘

: Bag of Words

텍스트 데이터 전처리 : NLP

특수 문자 제거, 토큰화. 일반적으로는 공백으로 잘라내는 것. 한국어는 조사, 형태소로 나누는 작업도 필요함.
bow 모델에서 순서는 중요하지 않으며 파이썬 딕셔너리를 사용하면 편함.

감정분류기

긍/부정의 BoW는 기계학습 알고리즘으로 자동으로 학습되게 한다. 학습을 위한 TRAINING에 긍정 문서 2000개, 부정문서 2000개 레이블이 붙은 지도학습을 시도. 문서 셋에 나온 문자들의 빈도를 측정.

profile
유가연

0개의 댓글