BPE(Byte Pair Encoding)란?

yoonene·2022년 12월 12일

면접대비

목록 보기

16/17

Q: BPE란?

가장 작은 character부터 시작해서 가장 자주 등장하는 유니그램 쌍을 하나의 유니그램으로 통합하여 vocabulary를 업데이트하는 바텀업 방식의 서브워드 토크나이저

업데이트를 몇 회 반복(iteration)할 것인지는 사용자가 정한다.

단어 집합에 없는 단어 , 즉 기계가 모르는 단어가 등장하는 문제
→ 이 문제를 완화할 수 있는 방법 : 서브워드 분리(Subword segmentation)

하나의 단어를 여러 서브워드로 분리해서 단어를 인코딩 및 임베딩하겠다는 의도를 가진 전처리 작업을 하는 토크나이저
Ex) birthplace = birth + place

BPE는 대표적인 서브워드 토크나이저 중 하나

훈련 데이터

# dictionary
# 훈련 데이터에 있는 단어와 등장 빈도수
low : 5, lower : 2, newest : 6, widest : 3

훈련 데이터에 있는 단어(key)와 등장 빈도수(value)

1회 업데이트 - ‘es’

# dictionary update!
l o w : 5,
l o w e r : 2,
n e w es t : 6,
w i d es t : 3

빈도수가 9로 가장 높은 (e, s)의 쌍을 es로 통합

10회 반복하였을 때 결과

# vocabulary update!
l, o, w, e, r, n, s, t, i, d, es, est, lo, low, ne, new, newest, wi, wid, widest

⇒ 기존에는 OOV 문제가 발생하던 ‘lowest’를 표현할 수 있다.

reference
https://wikidocs.net/22592

NLP Researcher / Information Retrieval / Search