word-level embedding
Pharse-level or Sentence level Embedding
Masked Multi Head Self Attention
, Encoder-Decoder Multi Head Attention
, position-wise feedforward layer
로 구성되어 있는데 GPT-1에서는 Encoder-Decoder Multi Head Attention
를 제외한 Masked Multi Head Self Attention
과 position-wise feedforward layer
로만 구성되어 있습니다.Multi-layer Transformer decoder
문맥 벡터 에 token embedding matrix를 행렬곱하고 position embedding matrix를 더하여 위치정보를 입력해준다.
를 Transformer Decoder block에 입력하고 을 출력해준다. Decoder block이 총 n개가 있다면 이를 n번 반복하여 을 출력한다.
최종 출력 에 token embedding matrix의 전치행렬을 곱하고 softmax
함수를 통해 예측하려는 토큰에 대한 output distribution을 출력한다.
Supervised fine-tuning
Linear Layer
를 추가하여 Target Task를 맞추도록 학습합니다.Little Structure Modification
입력 데이터를 사전 훈련된 모델에 입력하고 Transformer의 마지막 블록에서 활성화 함수를 거친 을 출력합니다. 이를, 파라미터 를 갖는 Linear Layer
에 입력하고 나온 결과를 softmax
함수를 거쳐 확률로서 표현합니다.
Supervised fine-tuning의 MLE는 아래와 같습니다.
Add Auxiliary objective
: start token, : end token, : delimiter token
Input data : Traversal-style approach
Classification
Textual entailment
Similarity
Question Answering and Commonsense Reasoning
Model specifications
parameter | Description |
---|---|
State dimension | decoder: 768, inner state: 3072 |
Batch size | 64 random sample × 512 token/sample |
Schedule | 100 epochs |
Optimizer | Adam |
Learning Rate | 0~2000 step까지 2.5e-4까지 증가, 이후 cosine 함수를 따라 0으로 서서히 감소 |
warmup_steps | 4000 |
Regularization | L2(=0.01) |
Activation | GELU(Gaussian Error Linear Unit) |
표 출처 | 사이트 링크 |
Fine Tuning details
GPT-1의 실험결과는 다음과 같습니다.
Natural Language Inference
Question answering and commonsense reasoning
Semantic Similarity & Classification
대체로 좋은 성능을 보여주고 있습니다.
Impact of number of layers transferred & Zero-shot Behavior
Ablation Studies