Pre-trained된 Language model은 NLP task에 효율적이다.
Pre-training을 위해 feature-based approach와 fine-tunning approach를 볼 수 있다.
feature-based approach는 특정 task를 해결하기 위한 구조를 가지며 pre-trained representation을 추가적인 feature로 사용한다.
fine-tunning approach는 BERT에서 중점적으로 사용하는 접근방법으로 특정 task에 대한 parameter를 최소화하여 pre-trained model을 사용한다. 특정 task를 수행할 경우 그에 맞게 fine-tunning을 적용한다.
Pretraining parameters
Self-Supervised Learning on LARGE dataset
General architecture for various downstream task
Masked Language Model
Masked Language Model은 deep bidirectional representation을 학습하기 위해 input token의 일부를 랜덤하게 masking하는 기법이다.
making된 단어를 예측하는 token-level 학습 방법이다.
Masked Language Model을 통해 pre-training된 BERT는 문맥 정보를 활용할 수 있게 된다.
두 문장 간의 relationship을 파악하기 위해 두 문장이 연결되어 있던 문장인지를 예측하는 Next Sentence Prediction 학습을 진행한다.
두 문장이 이어지는 문장이면 true, 이어지는 문장이 아니면 false를 리턴하여 문장 간의 relationship을 파악할 수 있도록 pre-training을 한다.
다음은 BERT에서 사용하는 encoder 부분이다.
transformer의 encoder 부분만 사용하며 Customized Embedding과 Customized output이 추가된다.
BERT Embedding
CUSTOMIZED Embedding
BERT Pooler
CUSTOMIZED Output
reference
https://arxiv.org/pdf/1810.04805.pdf
https://arxiv.org/pdf/2003.11562.pdf
수업자료 이용(이론)