어휘 크기 (vocab), oov -> 학습 안정성
max_df, min_df => 과하게 정보를 지우면 필요한 정보도 같이 사라질수있다
ex : 히히히/ㅋㅋㅋㅋ/하하하 -> ㅋㅋ or 삭제
split() => tokenizer
텍스트 데이터를 정제하는 초기 단계로 특수문자 제거 - 숫자 제거 - 불용어 제거 단계로 이어진다
실제 데이터에서는 도메인에 따른 맞춤형 전처리가 필요(제거 /남길지 / 다른 토큰으로 치환할지)
한국어 자연어 처리 지원 라이브러리