일본어 형태소 분석기 Sudachipy 설치

JIGDUCK🏆·2023년 2월 5일
0

NLP - Sudachipy

목록 보기
1/1

내가 근무하는 곳은 일본에서 서비스를 제공하는 곳이기 때문에 일본어 데이터를 다룰 기회가 많다. (아니 거의다다)
일본어 리뷰 데이터의 형태소를 분류해 분석하는 작업을 하기위헤 Sudachipy를 이용하게 되었다.
자료를 찾다보니 한국어 자료들은 거의 없어 파파고를 이용해 일본어로 검색하면서 설치하고 에러들을 해결하였다.... 그래서 혹시나 sudachipy를 이용할 한국 분들을 위해 작성하게 된 글이다. 누군가에게는 도움이 되길...!!!

Sudachipy 설치

먼저 파이썬이 설치되어있어야한다.
나 같은 경우는 3.11 버전이 설치되어있었는데 여러 에러들이 많이생겨 기존 버전을 삭제 후 3.9.6버전을 설치하여 진행하였다.

터미널에서 아래의 명렁어들을 입력하면 sudachipy와 sudachipy 사전이 설치된다.

#sudachipy 설치 -> 파이썬 3.11에서는 에러가 나서 3.9.6으로 설치한 후 실행했음
$ pip3 install SudachiPy
#사전 설치 (small과 full버전도 있다. 필요한 걸로 골라 설치하면 된다.)
$ pip3 install sudachidict_core

만약 이렇게 설치 후 토큰화를 진행할 때 error: failed building wheel for tokenizers 에러가 뜬다면 아래 명령어를 실행시키면 해결된다.

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

만약 사전이 계속 설치되지 않고 에러가난다면 가상환경에서 설치하는 것을 추천한다.
가상환경에서 진행하는 것은 아래의 명령어들을 순서대로 실행시키면 된다.

$ python3 -m venv supy-test
$ source supy-test/bin/activate
$ .\supy-test\Scripts\Activate.ps1
$ pip3 install sudachipy sudachidict_core

참고한 자료 링크들

profile
안녕하세요 삼성동 망아지입니다.

0개의 댓글