BERT

Kim Hyeyeon·2021년 11월 7일
0

Transformer based Model - BERT

  • BERT: Bidirectional Encoder Representations from Transformers
  • BERT is designed to pre-train deep bidirectional representations
  • pre-trained BERT model can be fine-tuned with just one additional output layer to create state-of-the art models

Pre-trained된 Language model은 NLP task에 효율적이다.
Pre-training을 위해 feature-based approach와 fine-tunning approach를 볼 수 있다.

feature-based approach는 특정 task를 해결하기 위한 구조를 가지며 pre-trained representation을 추가적인 feature로 사용한다.
fine-tunning approach는 BERT에서 중점적으로 사용하는 접근방법으로 특정 task에 대한 parameter를 최소화하여 pre-trained model을 사용한다. 특정 task를 수행할 경우 그에 맞게 fine-tunning을 적용한다.

Pretraining parameters

  • core weights of transformer encoder

Self-Supervised Learning on LARGE dataset

  • enable to use available raw data

General architecture for various downstream task

  • transformer(N21, N2N, Compare,..)

Pretraining

Masked Language Model

Masked Language Model은 deep bidirectional representation을 학습하기 위해 input token의 일부를 랜덤하게 masking하는 기법이다.
making된 단어를 예측하는 token-level 학습 방법이다.
Masked Language Model을 통해 pre-training된 BERT는 문맥 정보를 활용할 수 있게 된다.

Next Sentence Prediction

두 문장 간의 relationship을 파악하기 위해 두 문장이 연결되어 있던 문장인지를 예측하는 Next Sentence Prediction 학습을 진행한다.
두 문장이 이어지는 문장이면 true, 이어지는 문장이 아니면 false를 리턴하여 문장 간의 relationship을 파악할 수 있도록 pre-training을 한다.

BERT 구조

다음은 BERT에서 사용하는 encoder 부분이다.

transformer의 encoder 부분만 사용하며 Customized Embedding과 Customized output이 추가된다.

BERT Embedding
CUSTOMIZED Embedding

  • 주어진 토큰에 대한 입력 표현은 해당 토큰의 segment, position emdding을 합산하여 구성
  • 실험에서 사전 학습 속도를 높이기 위해 90%는 사전훈련, 나머지 10%는 position embedding 훈련에 사용
  • 모든 토큰이 해당 토큰에 속하는지 여부를 나타내는 학습된 임베딩 추가

BERT Pooler
CUSTOMIZED Output

  • tanh(마지막 hidden_state의 첫 토큰) -> A,B가 연속된 시퀀스인지 판단
  • 마지막 hidden_state -> 마스킹된 단어 예측

reference
https://arxiv.org/pdf/1810.04805.pdf
https://arxiv.org/pdf/2003.11562.pdf
수업자료 이용(이론)

0개의 댓글