
형태소(morpheme)는 언어학에서 (일반적인 정의를 따르면) 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떠어낼 수 있는 것을 말한다.
즉, 더 분석하면 뜻이 없어지는 말의 단위이다.
예) 한나가 책을 보았다.

어휘적 의미가 있는 형태소로 어떤 대상이나 상태, 동작을 가리키는 형태소를 말한다.
일반적으로 명사, 동사, 형용사, 부사가 이에 속한다.
위의 예에서는 "한나", "책", "보"가 이에 해당한다.
문법적 의미가 있는 형태소로 어휘형태소와 함께 스여 그들 사이의 관계를 나타내는 기능을 하는 행태소를 말한다.
한국어에서는 조사, 어미가 이에 속한다.
위의 예에서는 "가", "을", "았", "다"가 이에 해당한다.
다른 형태소 없이 홀로 어절을 이루어 사용될 수 있는 형태소를 말한다. 한국어에서는 일반적으로 명사, 대명사, 수사, 관형사, 부사, 감탄사 등이 이에 속한다.
위의 예에서는 "한나", "책"가 이에 해당한다.
문장에서 반드시 다른 형태소와 함께 쓰여서 어절을 이루는 형태소를 말한다. 한국어에서는 조사와 어미는 물론 이에 속하고 용언의 어간 즉 동사, 형용사의 어간이 이에 속한다.
위의 예에서는 "가", "을", "보", "았", "다"가 이에 해당한다.
중복을 제거한 어휘와 index가 정의된 집합이다. 어휘집을 통해 문자를 숫자로 변환할 수 있다.

※ 정리
토큰화는 형태소 분석을 근거로 이루어지며,
토큰화가 적용된 값들은 idx : word 형식으로 정의 된다.
이러한 원소들의 집합을 '어휘집' 이라고 하며,
문자를 숫자로 변환할 수 있다.