📖 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

oceann·2024년 9월 5일

🗞️ 논문 리뷰

목록 보기

2/2

사실 Attention is all you need부터 얼른 해야 하는데 또 미루다가 결국 BERT부터 리뷰한다. BERT는 Transformer의 encoder를 기반으로 하기 때문에, 입력 sequence의 모든 정보를 사용하는 deep bidirectional한 모델이다. encoder과 decoder 구조 중 하나를 선택하는 이유가 서로 다른 task 수행의 목적성에 있다고 하는데, decoder 모델 또한 알아봐야겠다.

🔗 https://www.waqasrana.me/assets/papers/N19-1423.pdf

citation
Kenton, Jacob Devlin Ming-Wei Chang, and Lee Kristina Toutanova. "Bert: Pre-training of deep bidirectional transformers for language understanding." Proceedings of naacL-HLT. Vol. 1. 2019.

Abstract

BERT란 Bidirectional Encoder Representations from Transformers의 초성을 따온 것이다. Transformer의 encoder 구조를 따와 self-attention을 연산할 때 입력 sequence의 문맥을 전부 고려할 수 있기 때문에 deep bidirectional representation을 학습할 수 있다고 한다.

1. Introduction

NLP task
sentence-level task: 입력 sequence의 문맥 파악이 중요하며, inference와 paraphrasing 등이 있다.
token-level task: 출력이 token 단위로 잘 정제된 형태여야 하며, named entity recognition, QA 등이 있다.

down stream task 적용법
feature-based approach: task-specific한 구조를 사용하며, 대표적으로 ELMo가 있다.
fine-tuning approach: 단순히 fine-tuning만 수행하며, 생성형 모델인 OpenAI의 GPT가 있다.

두 모델 각각 shallow bidirectional하거나 unidirectional해서 전체적인 문맥 파악이 어렵다는 단점이 있다.
BERT는 fine-tuning 기반의 접근법을 개선한 모델이다. deep bidirectional representation을 학습하기 위해 MLM과 NSP 학습법을 적용했다.

2.1 Unsupervised Feature-based Approaches

출처: wikidocs

대표적으로 ELMo라는 모델이 있다. 특정 task를 수행하기 위해 위 그림과 같이 biLM을 사용하여 역방향과 순방향으로 sequence를 학습한다. 양방향이라고 생각할 수 있지만, 각각의 방향에 대해서 독립적으로 학습한 후 concatenate하기 때문에 shallow bidirectional하다는 특징이 있다.
이렇게 task를 학습한 모델은 사전 학습된 모델과 결합되어 출력을 생성한다.

2.2 Unsupervised Fine-tuning Approaches

대표적으로 생성형 모델인 OpenAI의 GPT가 있으며, 단순히 비지도 학습 방식으로 사전 학습된 word embedding의 가중치를 사용한다. 해당 가중치를 사용해서 모델을 초기화하고 지도 학습 방식으로 특정 task에 맞는 작업들을 학습하며 fine-tuning된다.
이 방식은 일부 가중치들만 학습하면 되기 때문에 리소스와 시간을 단축할 수 있다는 장점이 있다.

2.3 Transfer Learning from Supervised Data

앞서 fine-tuning할 때는 지도 학습 방식을 적용한다고 했는데, 전이 학습 또한 고려하면 좋은 방식이다. vision task에서도 입증된 바가 있듯이, 대규모 데이터셋에서 학습한 모델을 freeze하여 추가로 학습할 layer만 tuning한다. 어쨌든 이 논문에서는 Fine-tuning 방식에 집중한다.

3. BERT

앞서 설명했지만, 총 두 단계의 학습 방식을 거친다. 비지도 학습 방식으로 pre-training하는 단계와 지도 학습 방식으로 fine-tuning하는 단계로 구성되어 있다. 다양한 task에도 두 단계 모두 거의 동일한 구조를 유지하며, fine-tuning 시에만 추가적인 layer가 사용되어 unified architecture across different tasks라고 한다.

Model Architecture
multi-layer bidirectional Transformer encoder based 모델이다. 말이 어려운데 단순히 Transformer의 encoder 구조를 따온 것이고, 내부는 multi-layer로 구성되어 있다는 것이다.
OpenAI의 GPT와 비교하기 위해 $\text{BERT}_{BASE}$ 는 $L$ =12, $H$ =768, $A$ =12, $\text{Total Parameters}$ = 110M으로 구성하고, 자체적으로는 $\text{BERT}_{LARGE}$ $L$ =24, $H$ =1024, $A$ =16, $\text{Total Parameters}$ = 340M으로 구성하였다.
L: Transformer block의 layer 수
H: 은닉층의 dimension
A: self-attention을 수행하는 head 수

Input/Output Representations
다양한 down-stream task를 수행할 수 있도록 입력과 출력의 표현에 특수한 규칙을 지정하였다.

특히 입력 문장이 여러 개인 경우가 있기 때문에 하나일 때와 동일한 방식으로 입력할 수 있도록 [SEP] token을 사용하였다. [SEP] token 앞의 sequence들은 Sentence A가 되어 A로 embedding되고, 뒤의 sequence들은 B가 된다.
또한 자연어를 WordPiece embedding 방식을 사용하였으며, 모든 sequence의 맨 처음에는 [CLS] token이 붙는다. 이 token을 통해 감정 분석, 문장의 포함 관계 추론 등 classification을 수행할 수 있다.
따라서 입력 단어(sub-word, token)에 대해서 그림과 같이 WordPiece embedding, segment embedding, position embedding 총 세 개의 합으로 embedding된다.

3.1 Pre-training BERT

Unsupervised!!!!!!!

Task #1: Masked LM
문맥을 통해 단어를 예측하는 작업을 수행한다. 먼저 대규모 corpus 전체의 15%를 선정한다. 학습 이후 실제 데이터로 추론을 수행할 때는 [Mask] token은 없을 것이다. 따라서 모든 token을 [Mask] token으로 대체는 대신 아래와 같은 과정을 수행한다.
1 15%의 80%는 [MASK] token으로 대체한다.
2 15%의 10%는 랜덤한 다른 token으로 대체한다.
3 마지막 10%는 원래의 token을 그대로 두어 모델이 token을 변경하지 않아도 된다는 것을 알려준다.

Task #2: Next Sentence Prediction(NSP)
앞서 설명했던 [SEP] token과 [CLS] token이 사용된다. 임의로 두 문장을 선택하여 Sentence B가 Sentence A의 뒤에 이어지는 문장인지 아닌지를 판단하게 한다. 결과적으로 모델이 문맥 및 인과관계를 파악할 수 있다.
1 학습 데이터셋의 50%는 Sentence A와 Sentence B가 이어진다. 이 경우, [CLS] token은 IsNext에 해당하는 응답을 반환한다.
2 나머지 50%는 두 문장에 연속성이 없다. 따라서 [CLS] token은 NotNext에 해당하는 응답을 반환한다.

Pre-training Data
이 과정에서 사용한 데이터셋은 8억 개의 단어를 가진 BooksCorpus와 25억 개의 단어를 가진 English Wikipedia이다. English Wikipedia의 경우, 목차, 표, 제목 등은 무시하고 오직 텍스트만을 사용했다.

3.2 Fine-tuning BERT

Supervised!!!!!!!

일반적으로 질문-답과 같은 text pair를 encoding할 때 각각을 따로 encoding하여 모델에 입력하곤 하는데, BERT는 연속된 문장으로 취급하여 self-attention 메커니즘을 적용한다. 이러한 방식으로 각 task-specific한 입력과 출력에 대해서 BERT의 모든 가중치들을 fine-tuning한다.

사전 학습 시 사용된 입력 sentence A와 sentence B는 아래와 같이 대체된다.
1 parapharasing: 두 문장 쌍
2 entailment: 가설-전제 쌍
3 QA: 질문-지문 쌍
4 text classification, sequence tagging: text- $\phi$ 쌍. sentence B가 필요 없기 때문에 공란으로 두는 것이다.

출력단에서는, token-level task들에 대해서는 token 표현들이 출력 layer에 위치하고, classification같은 경우에는 [CLS] token이 사용되고, 이후의 출력 sequence는 생성되지 않는다.

4. Experiments

NLP의 11개의 task에 대해서 SOTA를 달성했고, 벤치마크 데이터셋 GLUE, SQuAD v1.1, SQuAD v2.0, SWAG에 대해서 학습한 과정과 결과를 설명하고 있다. 어렵지 않지만 나중에 추가하기로...

5. Ablation Studies

사전 학습 시 NSP를 적용하지 않았을 때, 모델의 크기에 따른 차이, Fine-tuning based approach 방식을 feature-based approach 방식으로 바꿨을 때를 비교한다.
Ablation Study답게 본론에서 설명한 내용이 BERT의 최고점이다.

6. Conclusion

BERT는 deep bidirectional 구조를 사용하여 입력 sequence의 문맥 자체를 이해할 수 있다. 또한 사전 학습된 모델만으로도 NLP 작업의 다양한 task를 수행할 수 있으며, fine-tuning을 수행할 시에는 대규모 데이터셋 없이도 높은 정확도를 달성할 수 있음을 보여준다.

oceann

🌈🌼🌸☀️

이전 포스트

📖 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

🗞️ 논문 리뷰

Abstract

1. Introduction

2.1 Unsupervised Feature-based Approaches

2.2 Unsupervised Fine-tuning Approaches

2.3 Transfer Learning from Supervised Data

3. BERT

3.1 Pre-training BERT

3.2 Fine-tuning BERT

4. Experiments

5. Ablation Studies

6. Conclusion

📖 Mistral 7B

0개의 댓글

📖 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

🗞️ 논문 리뷰

Abstract

1. Introduction

2. Related Work

2.1 Unsupervised Feature-based Approaches

2.2 Unsupervised Fine-tuning Approaches

2.3 Transfer Learning from Supervised Data

3. BERT

3.1 Pre-training BERT

3.2 Fine-tuning BERT

4. Experiments

5. Ablation Studies

6. Conclusion

📖 Mistral 7B

0개의 댓글