보통 학습 초기에는 낮은 학습률을 사용하고, 이를 점진적으로 증가시킨 뒤(Warmup) 다시 감소하는 방식(Cosine Decay)를 사용
왜 중요한가?
- 초기 학습에서 너무 큰 학습률을 사용하면 모델이 불안정해지고 수렴 속도가 느려질 수 있음
- 특히, Adam Optimizer과 같은 Adaptive Optimizer에서는 학습 초기에 과도한 업데이트를 방지하는 것이 중요
- Warmup 동안 학습률을 점진적으로 증가시켜서 모델이 안정적으로 학습되도록 함
^ Learning Rate
| . -> Peak Learning Rate
| . .
| . .
| . .
|--------|------------------------->
Warmup Decay
| 데이터셋 | 설명 | 특징 |
|---|---|---|
| GLUE | NLU 평가 벤치마크 (9개 데이터셋) | 문장 분류 & 문장 관계 이해 |
| SQuAD | 질문-답변(QA) | 문맥에서 정답 추출 |
| RACE | Reading Comprehension | 긴 문맥 + 고난이도 질문 (4지선다형 문제) |

| Input Format | Description | NSP |
|---|---|---|
| SEGMENT-PAIR+NSP | 기존 BERT 형식 | |
| Segments의 Pair을 Input으로 사용 | O | |
| SENTENCE-PAIR+NSP | Sentences의 Pair을 Input으로 사용 | |
| 배치 크기 증가 | O | |
| FULL-SENTENCES | 512 token까지 Sentences를 채움 | |
| 다수의 Documents 사용 | X | |
| DOC-SENTENCES | FULL-SENTENCES와 유사하지만 문장 경계를 넘지 않음 | |
| 배치 크기 증가 | X |

| 실험 | Batch size | Steps |
|---|---|---|
| Original BERT | 256 Sequences | 1M |
| Experiment1 | 2K Sequences | 125K |
| Experiment2 | 8K Sequences | 31K |

Perplexity는 언어 모델의 성능을 측정하는 대표적인 평가 지표
확률 모델의 예측 성능을 측정
값이 낮을 수록 예측력이 높음
1이면 모든 단어 시퀀스를 완벽하게 예측하는 것을 의미
여기서 는 언어 모델의 Entropy
N: 문장 내 token 개수
: 이전 단어들을 기반으로 단어 를 예측할 확률
: 평균적인 예측의 불확실성 (Entropy)


