[nlp] 리눅스에서 Mecab 설치 및 사전추가 방법

최승언·2023년 3월 30일
0

nlp

목록 보기
1/11
post-thumbnail

1. mecab-ko 설치

$ sudo apt-get install g++ make openjdk-11-jdk

# download
$ wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz

# 압축해제
$ tar xvfz mecab-0.996-ko-0.9.2.tar.gz

# install 
$ cd mecab-0.996-ko-0.9.2
$ ./configure
$ make
$ make check
$ sudo make install

2. mecab-dic 설치

# download
$ wget https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz

# 압축해제
$ tar xvfz mecab-ko-dic-2.1.1-20180720.tar.gz

# install 
$ cd mecab-ko-dic-2.1.1-20180720
$ ./configure
$ ./autogen.sh
$ make
$ sudo make install

./autogen.sh 명령어 실행시 not found 에러가 뜬다. aclocal, autoconf, automake 가 설치 안된 것일 수 있으니 설치하면 해결된다.

$ sudo apt-get install autoconf automake libtool mecab libmecab-dev mecab-ipadic-utf8

3. mecab-python 설치

# install
$ git clone https://bitbucket.org/eunjeon/mecab-python-0.996.git
$ cd mecab-python-0.996
$ python setup.py build
$ python setup.py install

# 위에 에러시 pip으로 설치
$ pip install mecab-python3

4. 사전 추가

  1. mecab-ko-dic-2.1.1-20180720 안에 추가하려는 단어가 있는 .csv 파일 생성
# 예제
애완동물,1780,3534,3689,NNG,*,T,애완동물,Compound,*,*,애완/NNG/*+동물/NNG/*
더빙,1780,3534,2639,NNG,*,T,더빙,*,*,*,*,*
카카로트,1786,3545,2953,NNP,*,F,카카로트,*,*,*,*,*
배지터,1786,3545,2953,NNP,*,F,배지터,*,*,*,*,*
침착맨,1786,3546,2953,NNP,*,T,침착맨,*,*,*,*,*
이상형,1780,3534,1716,NNG,*,T,이상형,*,*,*,*,*
카타쿠리,1786,3545,2953,NNP,*,F,카타쿠리,*,*,*,*,*

여기서 4번째 쉼표에 있는 숫자가 작을수록 우선순위가 높아짐.

  1. tools/add-userdic.sh 스크립트를 실행시키면 완료.
profile
작업하다가 막힌부분을 기록하는 곳.

0개의 댓글