코퍼스 수집: 크롤링 등.
정제(Normalization) : 전각 문자 제거(특수문자), 대소문자 통일
문장 단위 분절: 여러 문장이 한 줄에 있거나 여러 줄에 한 문장이 걸쳐 있는 경우 문제 발생
분절 : 형태소 분석, 단순한 규칙을 통한 분절, 보통 띄어쓰기
서브워드 분절 : '단어는 의미를 가진 더 작은 서브 워드들의 조합으로 이루어진다' 는 가정하에 적용 되는 알고리즘으로 적절한 서브 워드들을 발견하여 해당 단위로 쪼개어주면 어휘 수를 줄일 수 있고, 희소성을 효과적으로 줄일 수 있다.