Tokenization

홍찬우·2023년 7월 24일
0
post-custom-banner

Character-based Tokenization

  • Character 단위로 토큰화

  • 상대적으로 긴 length이므로 많은 메모리 및 계산량 필요



Word-based Tokenization

  • delimeter 단위로 토큰화

    • 주로 쓰이는 delimeter은 space (띄어쓰기)


Subword-based Tokenization

  • 문장 및 단어를 통계적으로 의미있는 단위로 묶거나 분할

  • BPE(Byte Pair Encoding)


BPE(Byte Pair Encoding)

  • (e, s)를 묶은 채로 다음 빈도수가 가장 높은 쌍 탐색

  • 만약 OOV인 lowest가 등장한다면?

    • low, est로 encoding

    • 더 작은 단위로 내려가면서 마지막엔 문자 수준으로 tokenization



Tokenization tool

Konlpy
Google의 SentencePiece
HuggingFace의 Tokenizers







※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※

profile
AI-Kid
post-custom-banner

0개의 댓글