arxiv: https://arxiv.org/abs/1810.04805
date: 05/28/2022
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
[Abstract]
- 새로운 language representation model BERT(Bidirectional Encoder Representations from Transformers) !
- (논문 저술 당시) language representation model들과 달리 BERT는 unlabeled data로 모델을 pre-train한 뒤, 특정 task에 맞게 fine-tuning하는 형태
- 모든 layer에서 왼쪽 / 오른쪽 문맥을 같이 고려 → 양방향 심층표현 pre-train
- pre-trained BERT 모델은 task에 맞는 하나의 output layer만 추가하면 fine-tuned 될 수 있음
- 성능 좋음 !
[Introduction]
- language model pre-training은 많은 자연어 처리 task에서 유용하다고 알려져있음
- 특히 문장 단위 task(natural language inference, paraphrasing) ; 문장을 총체적으로 분석해 문장 간 관계를 예측해야 함
- token 단위 task(aimed entity recognition, question answering) ; 모델이 token 단위에서 정밀한 결과를 도출해야 함
- 기존 pre-trained language representation 활용 방식 두 가지
- feature-based : ELMo → task에 최적화된 구조를 이용(pre-trained representations을 additional features처럼 이용)
- fine-tuning : GPT → minimal task-specific parameters을 task에 맞춰 전부 fine-tuning하는 방식
- → 두 방식 모두 pre-training시 general language representation을 학습하기 위해 unidirectional language model을 활용한다는 공통점 가짐
- 기존의 pre-train 방식은 pre-trained representations의 역량을 제한한다 !
- 특히 unidirectional model을 활용하다보니 pre-training 시 architecture 선택에 제약이 있을 수 밖에 없음
- 이러한 제한으로 인해 sentence 단위 task에 있어 성능 저하를 야기할 가능성이 큼. sentence 단위 task의 경우 앞뒤 문맥 모두가 중요하기 때문.
- BERT는 이런 제약 사항을 다 개선했다 !
- unidirectional constraint → MLM(masked language model) 사용
- MLM : input의 일부를 랜덤하게 masking하고 masked token을 문맥에 기반하여 예측하도록 함. 이를 통해 deep bidirectional transformer 학습 가능
- BERT의 주요 contrubutions
- bidirectional pre-training이 중요하다 !
- pre-trained representations이 heavily-engineered task-specific architecture의 필요성을 감소시킨다.
- BERT 성능 짱좋음
[Related Work]
pre-training general language representation의 긴 역사〰
- Unsupervised Feature-based Approaches
- Unsupervised Fine-tuning Approaches
- Transfer Learning from Supervised Data
- 큰 dataset을 사용하는 supervised tasks의 경우 효과적인 transfer learning
[BERT]
[Conclusion]
- rich, unsupervised pre-training이 language understanding system에 중요하다는 건 알려져왔음
- 이러한 결과들은 low-source task들에서까지 deep unidirectional architecture의 효용이 있음을 보여줌
- 본 논문에서는 이를 deep bidirectional architecture로까지 발전시켰고, pre-trained model이 더 넓은 범주의 NLP task들을 성공적으로 다룰 수 있게 하였음 !
[Reference]