
한국어 BERT 모델
ETRI의 KoBERT Tokenizing
형태소 분석을 먼저 한 후 wordpiece 적용
높은 성능
Entity를 명시하고 Entity 임베딩을 추가하면 성능 향상
중요한 것은 개인 task에 맞게 tokenizer를 커스터마이징 하는 것


tokenizer.tokenize(text, add_special_token=False) 로 하면 부착 X
truncation=True 로 잘라냄

tokenizer.add_tokens() 로 새로운 단어를 추가할 수 있음
tokenizer.add_special_tokens()# Single segment input
single_seg_input = tokenizer("이순신은 조선 중기의 무신이다.")
# Multiple segment input
multi_seg_input = tokenizer("이순신은 조선 중기의 무신이다.", "그는 임진왜란을 승리로 이끌었다.")
# ['[CLS]', '이', '##순', '##신', '##은', '조선', '중', '##기의', '무', '##신', '##이다', '.',
# '[SEP]', '그는', '임', '##진', '##왜', '##란', '##을', '승', '##리로', '이', '##끌', '##었다', '.', '[SEP]']
tokens = tokenizer(
["이순신은 조선 중기의 무신이다.", "그는 임진왜란을 승리로 이끌었다."],
padding=True # First sentence will have some PADDED tokens to match second sequence length
)
padding=True 입력 시transformers의 pipeline

Token wise output vs Pooled output

model resize

model.resize_token_embeddings() 수행문장 유사도 측정

※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※