한국어 정보처리를 위한 파이썬 패키지이다. 설치
KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다고 한다!
형태소 분석기 | 특징 | 성능 |
---|---|---|
Hannanum | KAIST Semantic Web Research Center 개발 | 정제된 언어가 사용되지 않는 문서에 대한 형태소 분석 정확도가 높지 않음 |
Kkma | 서울대학교 IDS(Intelligent Data Systems) 연구실 개발 | 분석 품질은 우수하지만, 속도가 매우 느림 |
Komoran | Shineware에서 개발 | 다른 형태소 분석기에 비해 로딩시간이 길지만 분석속도는 빠름, 띄어쓰기 없는 문장 분석에 취약 |
Mecab | 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정 | 실행 속도가 제일 빠르고, 분석 품질도 양호 |
Open Korean Text | 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기 | 실행 속도는 빠르지만, 분석 품질이 좋지 않음 |
from konlpy.tag import *
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
mecab = Mecab()
okt = Okt()
위 클래스들은 다음과 같은 method를 공통으로 제공한다!
nouns
: 명사 추출
morphs
: 형태소 추출
pos
: 품사 부착