PORORO란, Platform Of neuRal mOdels for natuRal language prOcessing의 약자로, 카카오브레인에서 출시한 자연어처리 라이브러리이다.
하지만, 이 라이브러리를 설치할 때 많은 오류가 발생하는데, 이를 해결한 과정이다. (코랩기준!)
!git clone https://github.com/kakaobrain/pororo
코드 수정하기
몇 가지 코드를 수정해야한다.
가장 먼저, setup.py를 아래와 같이 수정한다.
#setup.py
torch==1.6.0을 torch>=1.6.0으로 수정
torchvision==0.7.0을 torchvision>=0.7.0으로 수정
tokenizer.py 또한 아래와 같이 수정한다.
# pororo/tasks/utils/tokenizer.py
class CustomTokenizer(BaseTokenizer):
def __init__(
...
tokenizer.pre_tokenizer = pre_tokenizers.Metaspace(
replacement=replacement,
prepend_scheme="first",
split=True,
)
tokenizer.decoder = decoders.Metaspace(
replacement=replacement,
prepend_scheme="first",
split=True,
)
pip 버전 설정
pip install "pip<24.1"
install
cd pororo
pip install .
import Pororo
from pororo import Pororo