문장에서 단어, 어절 등으로 나누는 것을 토큰화라고 한다. 이러한 과정을 하는 여러 방법이 있다.<split 방법><WordPunctTokenizer 방법><TreebankWordTokenizer 방법><RegexpTokenizer 방법>