데이터 수집: 자연어 처리 모델을 학습시키기 위해 대량의 텍스트 데이터를 수집이 데이터는 일반적으로 코퍼스(corpus)라고 불리며, 모델이 사용할 언어의 좋은 대표 예시를 포함해야 함토크나이징(Tokenizing): 수집된 텍스트 데이터를 개별 단어나 토큰으로 분리합