한국어 형태소분석

wandajeong·2022년 12월 15일
0

NLP/Text Data Analysis

목록 보기
1/12
post-thumbnail

한국어 텍스트 분석을 위해서는 문장을 형태소 단위로 나누어 분석을 해줘야 한다. (띄어쓰기, 조사, 품사 등을 구분..)

이를 위한 라이브러리는 크게 4가지가 있다.

  • konlpy : hannanum, kkma, okt, komoran 등 java 기반
    • komoran은 상대적으로 최신 버전
    • 설치 복잡
  • mecab-ko : 일본어 형태소 분석기인 mecab을 한국어에 맞게 수정
    • 설치 번거로움, 2010년대 초중반 이후 업데이트가 안되고 있음
  • kiwi : C++로 개발된 형태소 분석기
    • 속도가 빠름. 최적화 잘되어 있음. 설치 쉬운편
  • stanza : 딥러닝 기반 형태소 분석기. 의존 구문 분석(dependency parsing)*도 제공
    **동사의 주어, 목적어가 무엇인지 파악
    - Stanford 대학에서 만듦.
    - Spacy와 비슷
    - 속도가 느림. 너무 긴 문장 처리 못함.

어떤 것을 써야하는지 정답은 없다. 분석하고자 하는 텍스트에 따라 판단해서 선택하면 된다.

profile
ML/DL swimmer

0개의 댓글