STANZA | 1. 로컬에 설치하기

Jiyoun Kim·2023년 1월 31일

STANZA

목록 보기

1/1

0. STANZA?

Stanza는 스탠포드(stanford) NLP 그룹에서 만든 자연어처리(NLP, Natural Language Processing) 라이브러리로 영어, 한국어를 비롯한 66개의 다국어의 분석을 가능하게 하는 툴입니다. 단어를 분리하는 tokenizer뿐만 아니라, 원형을 복원하는 lemmatization, 품사(POS, Part Of Speech) 태깅, 의존 구문 분석(dependency parsing), 개체명 인식(NER, Named Entity Recognition) 등의 기능을 제공합니다.

이 포스팅 시리즈에서는 설치부터 시작하여 각 모듈 별 사용 방법 등에 대하여 기록해두고자 합니다. Windows 기준으로 설치를 진행합니다.

1. 설치하기

1-1. pip install stanza
아래와 같은 명령어를 cmd 창에 입력하여 stanza의 설치를 시작합니다.

pip install stanza

1-2. import 하여 패키지 설치 확인해보기
python Shell에서 설치된 패키지를 불러오는 아래의 명령어를 실행해봅니다.

import stanza

여기까지만 실행해보았을 때는 문제없이 패키지가 설치된 것 같지만...

1-3. 언어별 모델 다운로드
stanza는 각 언어별로 다국어 모델을 다운로드 받아야 합니다. 다운로드를 위해서는 아래와 같은 스크립트 라인을 작성해주면 됩니다. 로컬에서 이용하는 경우에는 다운로드는 1회만 실행하면 됩니다. 괄호 안에는 다운로드 받고자 하는 언어의 코드를 입력하면 됩니다. 저는 일단 영어('en') 모델을 다운로드 받아보겠습니다. 참고로 한국어 모델의 경우에는 'ko'을 괄호안에 넣으면 됩니다.