주어진 데이터를 토큰이라 불리는 단위로 나누는 작업
토큰이 되는 기준은 다를 수 있음(어절, 단어, 형태소, 음절, 자소 등)
Character-based/Word-based/Subword-based
고려사항