한국어 토크나이저 관련
한국어는 형태소 분석하여 토큰화를 진행해야하는데, 형태소 분석기(토크나이저)가 종류가 굉장히 다양하다.
토크나이저마다 성능차이가 크다고 해서 여러개를 테스트 해야하는데 우선 언어가 파이썬이고 속도가 빠른것 위주로 테스트 해야겠다.
파이썬으로 해결되는 것은
konlpy랑 fasttext이다.
그리고 따로 프로그램을 돌려서 해결할 수 있는 것은 HAM이랑 mecab인데 성능비교한 블로그보면 속도랑 성능 면에서 mecab이 좋은것 같다. 테스트 해봐야알겠지만...