수식은 가급적으로 배제하고, 모델의 개념과 특징 위주로 정리하였음.
teacher 모델을 학습시킨 후 knowledge distillation을 수행
knowledge transfer의 학습 대상은 각 레이어의 feature map과 attentione 값
각 layer 단계에서의 knowledge transfer 이후, 전체 model의 knowledge distillation을 수행 (pre-training distillation이라고 명명)
- distilBERT와 동일하게 MLM(Masked Language Model) loss에 대해서만 knowledge distillation을 수행
모델 학습은 3가지 방식을 사용하였고, 그 중 progressive knowledge transfer 방식이 MobileBERT를 학습하기에 효율적
1. Auxiliary Knowledge Transfer
- 모든 레이어의 knowledge transfer loss와 사전학습 distillation loss를 선형 결합한 단일 loss를 사용
2. Joint Knowledge Transfer
- 두 loss 항을 분리하여 먼저 layer 단의 지식을 전이학습한 후, 사전학습 distillation을 수행
3. Progressive Knowledge Transfer
- 각 레이어를 점진적으로 학습하는 방법
학습 데이터로는 BookCorpus, English Wikipedia 사용
학습 하드웨어: 256 TPU v3 chips for 500k steps with batch size of 4096 and LAMB optimizer