
WordPiece : 단어를 여러개의 서브워드나 문자로 분리하는 방식
(일반적인 형태소 분석, 토큰화와는 다른 방식)
BertTokenizer 사용
특별 토큰 추가 : BERT는 시작과 끝에 [CLS]와 [SEP]이라는 특별한 토큰을 추가한다.
BertTokenizer 사용
input_ids : 각 토큰의 정수 ID를 담고있는 배열attention_mask : 어텐션 마스크 배열token_type_ids : 질의응답과 같이 두 개의 문장을 한번에 BERT에 입력할 경우, 각 문장을 구분해주는 역할