[Mote] Tokenizer 기법

우주먼지·2020년 8월 7일
0

Mote

목록 보기
5/15

Tokenizer

문장에서 단어, 어절 등으로 나누는 것을 토큰화라고 한다. 이러한 과정을 하는 여러 방법이 있다.

<split 방법>

words = sentence.split()

<WordPunctTokenizer 방법>

from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize(text))

<TreebankWordTokenizer 방법>

from nltk.tokenize import TreebankWordTokenizer

#하이픈, '는 붙여서 분절화해준다.
print(TreebankWordTokenizer().tokenize(text))

<RegexpTokenizer 방법>

from nltk.tokenize import RegexpTokenizer

#단어들마다 나뉘되록 정규표현식을 작성.
print(RegexpTokenizer('\w+').tokenize(text))
profile
안녕하세요 ㅎㅎ

0개의 댓글