Tokenization

0

AI(인공지능)

목록 보기
2/5

Tokenization이란?

  • 문장을 Token Sequence로 나누는 과정, 수행 대상에 따라 문자, 단어, 서브워드 세가지 방법이 있습니다.
  • Tokenizer : 토큰화를 수행하는 프로그램
  • 단어 단위 / 문자 단위 / 서브워드 토큰화

Byte Pair Encoding(BPE)

  • 최조에 정보 압축 알고리즘으로 제안되었으나 최근에는 자연어 처리 모델에 널리 쓰이는 토큰화 기법
  • GPT 모델이 BPE로 토큰화를 수행하며, Bert 모델은 워드피스라는 BPE와 유사한 토크나이저를 사용

BPE 어휘 집합 구축

  • 빈도 수가 많은 바이그램 쌍을 병합하는 방식으로 구축

BPE 토큰화

  • 문장의 토큰화 수행 시에 병합 우선 순위를 부여하여 병합하고 더 이상 병합 대상이 없으면 병합을 그만두고 어휘 집합에 있는지 검사하여 최종 토큰화 수행

Wordpiece

  • Corpus에서 자주 등장하는 문자열을 토큰으로 인식한다는 점에서는 BPE와 유사하지만 BPE처럼 빈도 수를 기준으로 병합하는 것이 아닌 가능도(우도)를 가장 높이는 글자쌍을 병합한다는 차이점이 있습니다.
profile
코드 작성 시에 한 글자, 한 글자에 '왜' 를 붙여가며 생각하는 개발자가 되도록 노력중!!

0개의 댓글