Character 단위로 토큰화
상대적으로 긴 length이므로 많은 메모리 및 계산량 필요
delimeter 단위로 토큰화
문장 및 단어를 통계적으로 의미있는 단위로 묶거나 분할
BPE(Byte Pair Encoding)
BPE(Byte Pair Encoding)
만약 OOV인 lowest가 등장한다면?
low, est로 encoding
더 작은 단위로 내려가면서 마지막엔 문자 수준으로 tokenization
Konlpy
Google의 SentencePiece
HuggingFace의 Tokenizers
※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※