[Mote] Tokenizer 기법

우주먼지·2020년 8월 7일

Mote

목록 보기

5/15

문장에서 단어, 어절 등으로 나누는 것을 토큰화라고 한다. 이러한 과정을 하는 여러 방법이 있다.

words = sentence.split()

from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize(text))

from nltk.tokenize import TreebankWordTokenizer

#하이픈, '는 붙여서 분절화해준다.
print(TreebankWordTokenizer().tokenize(text))

from nltk.tokenize import RegexpTokenizer

#단어들마다 나뉘되록 정규표현식을 작성.
print(RegexpTokenizer('\w+').tokenize(text))

안녕하세요 ㅎㅎ