1. 컴퓨터가 언어를 이해하도록 변환
이 과정 중의 첫번째가 토큰화이다. 토큰화는 텍스트를 모델이 처리할 수 있는 단위로 쪼갠다.
2. 모델의 성능 그리고 효율성 향상
1) 어휘 크기의 제한
트랜스포머 모델은 고정된 크기의 어휘(vocabulary)만을 처리할 수 있다. 토큰화를 통해 의미 있는 단위로 쪼개면 모델이 전체 단어는 알지 못해도 쪼개진 토큰으로 전체 단어를 모델이 유추할 수 있다.
2) 긴 문장 처리
-토큰화는 문장의 길이를 줄여주는 효과를 준다. 문장 길이가 줄면 좀 더 효율적으로 모델이 동작한다.
- "안녕하세요" -> ["안녕", "하세요"]
3) 미등록 단어 (Out Of Vocabulary / OOV)
"unbelievable" -> ["un", "believ", "able"]3. 모델의 문맥적 이해
-> 토큰화는 텍스트 데이터를 트랜스포머 모델이 효과적으로 다루고 학습할 수 있도록하고, 문맥적 의미를 추론하는 데에 도움을 주는 전처리 과정이다.

토큰화와 임베딩은 서로 다른 별개의 과정이지만, 트랜스포머 모델에서 텍스트를 처리하는 데 있어서는 서로 연결된 중요한 단계이다.
토큰화 : 텍스트를 모델이 이해하도록 작은 단위로 나누는 과정. 토큰화 과정을 거쳐 결론적으로는 ID 리스트로 변환된다.
임배딩 : 토큰화로 생성된 각 토큰 ID를 벡터(숫자 배열)로 변환하는 과정.
이 벡터는 "의미"를 담고있다.
"안녕하세요" -> ["안녕" / "하세요"]["안녕" / "하세요"] -> ["123" / "456"]["123" / "456"] -> [[0.1, 0.2, ...], [0.3, 0.4, ...]]"unbelievable" -> "un", "believ", "able"[UNK] 또는 <unk>[UNK] 토큰으로 대체하고, 그에 해당하는 ID를 부여.[UNK] 토큰의 임베딩을 통해 "알 수 없는 단어"의 의미를 학습[UNK] 토큰이 등장하면 모델은 그 위치에 있는 단어의 정확한 의미는 알지 못하지만, 임배딩을 통해 "알 수 없는 단어"로 분류하고, 셀프 어텐션을 통해 문맥적으로 해당 알 수 없는 단어가 어떤 의미로 사용되는지 유추한다.<UNK> 을/를 마셨다."[UNK] 이 무엇인지는 모르지만, 문맥상 '마셨다'라는 동사 뒤에 있으므로 음료수나 액체류일 것이라고 유추할 수 있다. -> 모델은 [UNK] 토큰을 완전히 처리하지 못하는 것이 아니다. 그 토큰의 정확한 의미 정보가 부족한 상태로 주변 토큰들의 도움을 받아 문맥을 이해하려하는 것이다.