문장에서 단어, 어절 등으로 나누는 것을 토큰화라고 한다. 이러한 과정을 하는 여러 방법이 있다.
<split 방법>
words = sentence.split()
<WordPunctTokenizer 방법>
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(text))
<TreebankWordTokenizer 방법>
from nltk.tokenize import TreebankWordTokenizer
#하이픈, '는 붙여서 분절화해준다.
print(TreebankWordTokenizer().tokenize(text))
<RegexpTokenizer 방법>
from nltk.tokenize import RegexpTokenizer
#단어들마다 나뉘되록 정규표현식을 작성.
print(RegexpTokenizer('\w+').tokenize(text))