[bag of words]

유가연·2022년 2월 5일
0

TIL

목록 보기
13/32

텍스트를 기계가 이해할 수있는 수단으로 만들어주는 것. 형태로 바꿔주는 작업.

감정분석 알고리즘

: Bag of Words

텍스트 데이터 전처리 : NLP

특수 문자 제거, 토큰화. 일반적으로는 공백으로 잘라내는 것. 한국어는 조사, 형태소로 나누는 작업도 필요함.
bow 모델에서 순서는 중요하지 않으며 파이썬 딕셔너리를 사용하면 편함.

감정분류기

긍/부정의 BoW는 기계학습 알고리즘으로 자동으로 학습되게 한다. 학습을 위한 TRAINING에 긍정 문서 2000개, 부정문서 2000개 레이블이 붙은 지도학습을 시도. 문서 셋에 나온 문자들의 빈도를 측정.

profile
유가연

0개의 댓글

관련 채용 정보