Pre-training model 종류
masked language model (MLM) : 이전 모델이 앞 쪽의 단어만을 보고 뒤를 예측했다면 앞, 뒤 전체적인 문맥을 보고 예측하여 좋은 결과를 냄
Next Sentence Prediction : 문장의 연속성을 평가하여 예측. [SEP]토큰으로 두 문장을 구분해주고 [CLS] 토큰은 문장 앞에 추가.
1. Model Architecture
- Bert Base
- Bert Large
2. Input Representation
- WordPiece embeddings : subword 토큰으로 나눔
- Learned positional embedding : 단어의 위치 정보 포함
- [CLS] classification embedding : 단어의 연속성 토큰
- [SEP] Packed sentence embedding : 문장 구분 토큰
- Segment Embedding : position 뿐만 아니라 여러 문장일 경우 몇번째 문장인지에 대한 정보를 포함
3. Pre-training Tasks
- Masked LM
- Next Sentence Prediction
Fine tuning process : 기존 모델을 기반으로 아키텍쳐를 새로운 목적에 맞게 변형하고 이미 학습된 모델의 가중치를 미세하게 조정하여 학습시키는 방법
출처 - 부스트캠프 AI tech 교육자료
[부스트캠프 AI Tech] Week 5 - Day 5