BERT: Pre-training of deep directional transformers for language understanding
Bert의 input representation
Transformer 기반의 BERT
1. BERT의 MLM(Masked Langauge Model)
- 입력에서 몇 개의 단어를 무작위로 masking하고, 이를 Transformer 구조에 넣어 주변 단어의 맥락으로 masking된 token을 예측함.
- 15% token 중 80%는 token을 [MASK]로 바꾸고, 10%는 token을 무작위 단어로 바꿈.
- 이 [MASK] token은 pre-training에만 이용되고, fine-tuning에는 이용되지 않음.
- BERT의 NSP(Next Sentence Prediction)
- 두개의 문장이 동시에 입력되면 두 번째 문장이 첫 번째 문장의 뒤에 오는 문장인지 판단함.
https://moondol-ai.tistory.com/463
: bert 설명, 간단한 실습