Tokenization

코린이 주니어 개발자!!!·2023년 9월 11일

0

AI(인공지능)

목록 보기

2/5

Tokenization이란?

문장을 Token Sequence로 나누는 과정, 수행 대상에 따라 문자, 단어, 서브워드 세가지 방법이 있습니다.
Tokenizer : 토큰화를 수행하는 프로그램
단어 단위 / 문자 단위 / 서브워드 토큰화

Byte Pair Encoding(BPE)

최조에 정보 압축 알고리즘으로 제안되었으나 최근에는 자연어 처리 모델에 널리 쓰이는 토큰화 기법
GPT 모델이 BPE로 토큰화를 수행하며, Bert 모델은 워드피스라는 BPE와 유사한 토크나이저를 사용

BPE 어휘 집합 구축

빈도 수가 많은 바이그램 쌍을 병합하는 방식으로 구축

BPE 토큰화

문장의 토큰화 수행 시에 병합 우선 순위를 부여하여 병합하고 더 이상 병합 대상이 없으면 병합을 그만두고 어휘 집합에 있는지 검사하여 최종 토큰화 수행

Wordpiece

Corpus에서 자주 등장하는 문자열을 토큰으로 인식한다는 점에서는 BPE와 유사하지만 BPE처럼 빈도 수를 기준으로 병합하는 것이 아닌 가능도(우도)를 가장 높이는 글자쌍을 병합한다는 차이점이 있습니다.

코린이 주니어 개발자!!!

코드 작성 시에 한 글자, 한 글자에 '왜' 를 붙여가며 생각하는 개발자가 되도록 노력중!!

이전 포스트

Transfer learning

다음 포스트

Transformer

0개의 댓글