한국어 BERT 모델
ETRI의 KoBERT Tokenizing
형태소 분석을 먼저 한 후 wordpiece 적용
높은 성능
Entity를 명시하고 Entity 임베딩을 추가하면 성능 향상
중요한 것은 개인 task에 맞게 tokenizer를 커스터마이징 하는 것
tokenizer.tokenize(text, add_special_token=False)
로 하면 부착 Xtruncation=True
로 잘라냄tokenizer.add_tokens()
로 새로운 단어를 추가할 수 있음tokenizer.add_special_tokens()
# Single segment input
single_seg_input = tokenizer("이순신은 조선 중기의 무신이다.")
# Multiple segment input
multi_seg_input = tokenizer("이순신은 조선 중기의 무신이다.", "그는 임진왜란을 승리로 이끌었다.")
# ['[CLS]', '이', '##순', '##신', '##은', '조선', '중', '##기의', '무', '##신', '##이다', '.',
# '[SEP]', '그는', '임', '##진', '##왜', '##란', '##을', '승', '##리로', '이', '##끌', '##었다', '.', '[SEP]']
tokens = tokenizer(
["이순신은 조선 중기의 무신이다.", "그는 임진왜란을 승리로 이끌었다."],
padding=True # First sentence will have some PADDED tokens to match second sequence length
)
padding=True
입력 시transformers의 pipeline
Token wise output vs Pooled output
model resize
model.resize_token_embeddings()
수행문장 유사도 측정
※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※