한국어 텍스트 분석을 위해서는 문장을 형태소 단위로 나누어 분석을 해줘야 한다. (띄어쓰기, 조사, 품사 등을 구분..)
이를 위한 라이브러리는 크게 4가지가 있다.
- konlpy : hannanum, kkma, okt, komoran 등 java 기반
- komoran은 상대적으로 최신 버전
- 설치 복잡
- mecab-ko : 일본어 형태소 분석기인 mecab을 한국어에 맞게 수정
- 설치 번거로움, 2010년대 초중반 이후 업데이트가 안되고 있음
- kiwi : C++로 개발된 형태소 분석기
- 속도가 빠름. 최적화 잘되어 있음. 설치 쉬운편
- stanza : 딥러닝 기반 형태소 분석기. 의존 구문 분석(dependency parsing)*도 제공
**동사의 주어, 목적어가 무엇인지 파악
- Stanford 대학에서 만듦.
- Spacy와 비슷
- 속도가 느림. 너무 긴 문장 처리 못함.
어떤 것을 써야하는지 정답은 없다. 분석하고자 하는 텍스트에 따라 판단해서 선택하면 된다.