1) GPT-1
2) BERT
- 자연어 처리 분야에 한 획을 그은 GPT-1과 BERT를 설명
- GPT-1과 BERT는 Transfer Learning, Self-supervised Learning, Transformer를 사용했다는 공통점이 있다
- 세가지의 강력한 무기를 이용해 대용량의 text를 학습한 모델을 target task에 적용해 거의 모든 기존 자연어처리 task를 압도하는 성능을 보여주었다
- 세 가지의 키워드를 통해 두 모델을 자세히 알아보자
- Transformer를 사용해서 Self-supervised learning이라는 task를 통해 pre-training, fine-tuning의 형태로 NLP에 많은 성능의 task를 올린 GPT-1, BERT 를 알아보자
Model Architecture
Input Representation
Pre-training Tasks
BERT | GPT | |
---|---|---|
Training-data size | trained on the BookCorpus and Wikipedia(2,500M words) | trained on BookCorpus(800M words |
Training special tokens during training | learns [SEP],[CLS], and sentence A/B embedding(segment embedding) during pre-training | |
Batch size | 128,000 words | 32,000 words |
Task-specific fine-tuning | chooses a task-specific fine-tuning learning rate | uses the same learning rate of for all fine-tuning experiments |
잘 읽고갑니다. 너무 멋집니다.