서브워드 (Subword)
서브워드 토큰화 (Subword tokenization)
Byte Pair Encoding (BPE)
Transformers 라이브러리를 활용한 서브워드 토큰화
from transformers import BertTokenizerFast
NLP 모델에 자연어 정보를 전달하기 위해서는 적절한 현태로의 전처리 필요
번역 모델의 경우
문장들을 빠르게 처리하기 위해 병렬화 필요 → 배치화
다양한 길이의 문장을 배치화하기 위해 배치 내의 최대 길이 문장을 기준으로 문장에 패딩을 넣는 과정 필요
주어진 문장의 길이에 따라 데이터를 그룹화하여 패딩을 적용하는 기법
bucketing을 사용하지 않을 경우 위 사진과 같이 배치에 패드 토큰 개수가 늘어나 학습이 오래 걸린다.
아래 그림과 같이 길이에 따라 그룹화하여 패딩을 적용하면 학습을 효율적으로 가능