→ 위의 3가지 임베딩을 합쳐 사용하며 layer normalization과 dropout을 적용하여 입력으로 사용함
사용 데이터
BookCorpus와 Wikipedia Data로 이뤄진 3.3억개의 대용량 corpus 사용
학습 과정
MLM
input 데이터 일부에 [MASK] 토큰을 활용하여 마스킹한 입력을 통해 학습
context만을 이용하여 masked된 단어의 id를 예측함
masking 기법
→ Transformer의 인코더는 어떤 단어를 predict해야하는지, 어떤 단어가 random word로 대체되었는지 알지 못함. 이를 통해 모든 토큰에 대해 distributional contextual representation가지도록 강제할 수 있음
→ random word로 대체되는 것은 전체 학습 데이터 중 1.5%에 불과함. 이는 모델의 language understading에 악영향을 미치기에는 역부족임
MLM의 목표 : 양방향의 context를 활용하여 representation이 가능하도록
이를 통해 deep bidirectional transformer의 pretraining 가능
NSP
두 문장이 주어졌을 때, 두 문장이 연결된 문장인지 아닌지 맞추는 방식으로 학습
MLM에서의 representation과 text pair representation을 합쳐서 학습에 활용
QA, NLI task는 language modeling으로 그 특징이 바로 capture되지 않기에 이를 위해 NSP task 추가
입력 데이터 중 50%는 IsNext 레이블을 갖는 연속된 문장, 50%는 NotNext 레이블을 갖는 연속하지 않는 문장
MLM, NSP의 중요성
BERTbase : 12개의 레이어로 구성된 버트 베이스 모델
No NSP : BERT의 pretrain 과정 중 NSP 과정을 제외한 모델
LTR & No NSP : BERT의 pretrain과정 중 MLM & NSP 과정을 제외한 모델
LTR & No NSP + BiLSTM : BERT의 pretrain과정 중 MLM & NSP 과정을 제외한 모델에 bidirectional LSTM 구조를 추가한 모델
학습한 언어 모델을 전이 학습시켜 특정 NLP task를 수행하는 과정
task에 따라 fine tuning 과정에서 사용하는 토큰의 구성이 상이함을 알 수 있음