Original Paper (Arxiv) : BERT (https://arxiv.org/pdf/1810.04805)
ELMo๋ ๋ฌธ๋งฅ์ ๋ฐ์ํ ์๋ ์๋ฒ ๋ฉ์ ์ํด ์๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ญ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ 2๊ฐ๋ฅผ ํ์ตํ๋ค.
[๊ทธ๋ฆผ1] biLM ๊ตฌ์กฐ (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 9์ฅ [https://wikidocs.net/33930])
โ ๏ธ์ฃผ์ํ ์ : ์๋ฐฉํฅ RNN๊ณผ biLM์ ๋ค๋ฅด๋ค!
- ์๋ฐฉํฅ RNN : ์๋ฐฉํฅ RNN๊ณผ ์ญ๋ฐฉํฅ RNN์ ์๋ ์ํ๋ฅผ ์ฐ๊ฒฐํ์ฌ ๋ค์์ธต์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ
- biLM : ์๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ & ์ญ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ, 2๊ฐ ๋ชจ๋ธ์ ๋ณ๊ฐ์ ๋ชจ๋ธ๋ก ๊ฐ์ฃผํ์ฌ ํ์ต ์งํ
์ฆ, ์๋ฐฉํฅ RNN์ ํ๋์ ๋ชจ๋ธ์์ 2๊ฐ์ ๋ฐฉํฅ์ฑ์ ๋๋ ๊ฒ์ด๊ณ , biLM์ ํ๋์ ๋ชจ๋ธ์์ ํ๋์ ๋ฐฉํฅ์ฑ(์/์ญ)๋ง ๊ฐ๋ ๊ฒ์ด๋ค.
[๊ทธ๋ฆผ2] biLM ํ์ต ๊ณผ์ _"play" ์๋ฒ ๋ฉ ์ค (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 9์ฅ [https://wikidocs.net/33930])
โ ๊ฐ ์ธต์ ์ถ๋ ฅ๊ฐ์ ์ฐ๊ฒฐ
[๊ทธ๋ฆผ2]์์ ์ ์ ์ ์ฌ๊ฐํ ๋ด๋ถ์ ๊ฐ ์ธต์ ๊ฒฐ๊ณผ๊ฐ์ ์ฐ๊ฒฐํ๋ค. ("์๋ฐฉํฅ - ์ญ๋ฐฉํฅ"์ ํ๋์ ์์ผ๋ก)
โก ๊ฐ ์ธต์ ์ถ๋ ฅ๊ฐ์ ๋ํ์ฌ ๊ฐ์คํฉ
๊ฐ ์ธต์ ์ถ๋ ฅ๊ฐ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ ํ ๋ชจ๋ ๋ฒกํฐ๋ฅผ ๋ชจ๋ ๋ํ๋ค. ์ด๋ ๋ ๋ชจ๋ ํ์ต ๊ฐ๋ฅํ ์ค์นผ๋ผ์ด๊ณ softmax๋ฅผ ํต๊ณผํ ๊ฐ์ด๋ค.
โข ๋ฒกํฐ์ ์ค์นผ๋ผ ๋งค๊ฐ๋ณ์ ๊ณฑํ๊ธฐ
๋ ํ์ต ๊ฐ๋ฅ ํ ์ค์นผ๋ผ์ด๋ค.
์ ์ฒด ์์ :
[๊ทธ๋ฆผ3] ELMo๋ฅผ NLP ํ์คํฌ์ ์ ์ฉํ๋ ๊ณผ์ (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 9์ฅ [https://wikidocs.net/33930])
GloVe์ ๊ฐ์ ๊ธฐ์กด์ ์๋ฒ ๋ฉ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ELMo ํํ์ ์ฐ๊ฒฐํ์ฌ NLP ํ์คํฌ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค. ์ด๋, biLM ๋ชจ๋ธ ๋ด๋ถ ์ ์ ๊ฐ์ค์น๋ ๊ณ ์ ๋์ด ์๊ณ , ๋ ํ๋ จ ๊ณผ์ ์์ ํ์ต๋๋ค.
GPT-1 ์ ๋ฆฌ ๊ธ ์ฐธ๊ณ
https://velog.io/@angel5893/GPT-1-Improving-Language-Understandingby-Generative-Pre-Training-2018
unlabled text๋ก pre-train ํ ํ, ๊ฐ ํ์คํฌ์ ๋ํด์ fine-tuningํ๋ ๋ฐฉ์์ด๋ค. ๋น์ง๋ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ Transformer์ decoder ๋ถ๋ถ๋ง ๋ฐ์จ ํํ๋ก, Text & Position Embed, Masked Multi Self Attention, Residual Connection, Layer Norm, Feed Forward๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
[๊ทธ๋ฆผ4] GPT-1 unsupervised pre-training ๊ตฌ์กฐ (์ถ์ฒ : ๋ ผ๋ฌธ ๋ฐ์ท)
โ ํ ํฐ & ์์น ์๋ฒ ๋ฉ
โก Masked Multi Self Attention : attention score ๊ณ์ฐ ์, ์์ผ๊ฐ ํ๋ ฌ์ ํ์ฉํ์ฌ masking ์งํ
โข Residual Connection & Layer Norm : Post LN 2๋ฒ
โฃ Feed Forward : Linear์ ReLU๋ฅผ ํตํ ๋น์ ํ์ฑ ์ถ๊ฐ
์ด๋ ๊ฒ ์ฌ์ ํ์ดํ ๋ชจ๋ธ์ ๊ฐ ํ์คํฌ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ค ํ, ๋ง์ง๋ง Tranformer ๋ธ๋ก์ ํ ํฐ์ ์๋กญ๊ฒ ์ถ๊ฐํ ์ ํ ๋ถ๋ฅ๊ธฐ์ ๋ฃ์์ผ๋ก์จ ์์ธก ํ๋ฅ ์ ๊ณ์ฐํ๋ค.
์ต๊ทผ ์ธ์ด ๋ชจ๋ธ๋ค๊ณผ ๋ค๋ฅด๊ฒ BERT๋ ๊น์ ์๋ฐฉํฅ ํํ์ ํ์ตํ์ฌ ์ค์ง ํ๋์ ์ถ๊ฐ ์ถ๋ ฅ์ธต๋ง์ผ๋ก๋ fine-tuning ๋๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ๋ค์ํ ํ์คํฌ์ ๋ํ์ฌ SOTA๋ฅผ ๋ฌ์ฑํ์๋ค.
BERT๋ ๊ฐ๋ ์ ์ผ๋ก๋ ๊ฐ๋จํ์ง๋ง, ์ค์ง์ ์ผ๋ก๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ๋ก ์๋ ๊ณผ์ ๋ฅผ ํฌํจํ 11๊ฐ ๋ถ์ผ์์ ์๋ก์ด SOTA๊ฐ ๋ ์ ์์๋ค.
- GLUE: 80.5% (7.7%p ํฅ์)
- MultiNLI ์ ํ๋: 86.7% (4.6% ํฅ์)
- SQuAD v1.1: 93.2 (1.5 ํฅ์)
- SQuAD v2.0: 93.1 (5.1 ํฅ์)
์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ ์์ฐ์ด ์ถ๋ก , QA ๋ฑ ๋ค์ํ ์์ฐ์ด์ฒ๋ฆฌ ํ์คํฌ์์ ์ฑ๋ฅ ํฅ์์ ํฐ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. ์ฌ์ ํ์ต๋ ์ธ์ด ํํ์ ๊ณผ์ ์ ์ ์ฉํ๋ ๋ฐ์๋ ๋ค์ 2๊ฐ์ง ์ ๋ต์ด ์๋ค.
(1) feature-based
์ฌ์ ํ์ต ํํ์ ์ถ๊ฐ feature๋ก ํ์ฉํ๋, ๊ณผ์ ์ ๋ง๋ ๋ณ๋์ ์ํคํ
์ฒ๊ฐ ํ์ํ ๋ฐฉ๋ฒ์ผ๋ก ELMo๊ฐ ๊ฐ์ฅ ๋ํ์ ์ธ ์์์ด๋ค.
(2) fine-tuning
๊ณ ์ ๋ ํํ์ด ์๋๋ผ ์ฌ์ ํ์ต ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์ ๋ง์ถฐ ์ฌํ์ตํ๋ ๋ฐฉ์์ผ๋ก GPT-1์์ ํ๋์ ์ธต๋ง ์ถ๊ฐํ ๊ฒ์ฒ๋ผ, ์ต์ํ์ ์ถ๊ฐ ๊ตฌ์กฐ๋ง ๋์
ํ๋ค.
โํ์ฌ์ ๋จ๋ฐฉํฅ ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ ์ฌ์ฉ๋ ์ ์๋ ๊ตฌ์กฐ์ ์ ํ์ ํ์ ์ํจ๋ค.
์๋ฅผ ๋ค์ด, GPT-1์ ๋ณด๋ฉด ๋ชจ๋ธ์ด ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก๋ง ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ๊ตฌ์กฐ๋ก, ๊ฐ self-attention์์ ๊ฐ ํ ํฐ์ด ์ค์ง ์ด์ ํ ํฐ๋ค๋ง ์ฐธ๊ณ ํ ์ ์๋ค๋ ๋ฌธ์ ์ ์ด ์๋ค.
โ ๋ฌธ์ฅ ์์ค ๊ณผ์ ์ ๋ํด ์ต์ ์ด ์๋๋ค.
โ QA์ ๊ฐ์ด ํ ํฐ ์์ค์ ๊ณผ์ ์์๋ ์๋ฐฉํฅ ๋ฌธ๋งฅ์ ํ์ฉํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ์น๋ช
์ ์ผ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ BERT๋ masked language model (MLM) ์ฌ์ ํ์ต ๋ชฉํ๋ฅผ ํ์ฉํ์ฌ ๋จ๋ฐฉํฅ์ฑ ์ ์ฝ์ ๊ฒฝ๊ฐํ๋ค.
MLM์ผ๋ก ์ ๋ ฅ์ ํ ํฐ์์ ๋ช ๊ฐ๋ฅผ ๋๋ค์ผ๋ก ๋ง์คํนํ ํ, ๋ฌธ๋งฅ์ ๊ธฐ๋ฐํ์ฌ ๋ง์คํน๋ ๋จ์ด์ ์๋ณธ id๋ฅผ ์์ธกํ๋ค. MLM ๋ชฉ์ ํจ์๋ ์ข์ธก๊ณผ ์ฐ์ธก ๋ฌธ๋งฅ์ ์ตํฉํ์ฌ ํํ์ ๋ง๋ค ์ ์๊ฒ ํ๋ฉฐ, ์ด๋ฅผ ํตํด ๊น์ ์๋ฐฉํฅ Transofrmer๋ฅผ ์ฌ์ ํ์ตํ ์ ์๊ฒ ๋๋ค.
๋๋ถ์ด, text์์ผ๋ก ์ฌ์ ํ์ตํ๋ next sentence prediction (NSP) ํ์คํฌ๋ ํ์ฉํ์๋ค.
BERT ๋ชจ๋ธ์ ๊ธฐ์ฌ
- ์ธ์ดํํ์ ์์ด ์๋ฐฉํฅ ์ฌ์ ํ์ต์ ์ค์์ฑ์ ์ฆ๋ช ํจ.
- BERT๋ ๋ฌธ์ฅ ์์ค ๋ฐ ํ ํฐ ์์ค์ ๋ค์ํ NLP ๊ณผ์ ์์ SOTA๋ฅผ ๊ธฐ๋กํ ์ฒซ๋ฒ์งธ fine-tuning ๊ธฐ๋ฐ ๋ชจ๋ธ์.
- NLP 11๊ฐ ํ์คํฌ์์ SOTA ๊ธฐ๋ก.
(1) ๋จ์ด ์์ค ํํ ํ์ต
Word2Vec, GloVe์ ๊ฐ์ ์ฌ์ ํ์ต๋ ์๋ฒ ๋ฉ์ ์ด๊ธฐํ ์์ด ํ์ตํ ์๋ฒ ๋ฉ๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ ์ ๊ณตํ๋ค. ๋ํ์ ์ธ ํ์ต ๋ชฉํ๋ ์ขโ์ฐ ์ธ์ด ๋ชจ๋ธ๋ง, ์ฌ๋ฐ๋ฅธ ๋จ์ด vs ํ๋ฆฐ ๋จ์ด ๊ตฌ๋ณ ๋ฑ์ด ์๋ค.
(2) ๋ฌธ์ฅ/๋ฌธ๋จ ์์ค ํ์ฅ
์ดํ ๋ฌธ์ฅ ๋ฐ ๋ฌธ๋จ ์์ค์ ํ์ต์ผ๋ก ํ์ฅ๋์๋๋ฐ, ๋ฌธ์ฅ ํํ์ ํ์ตํ๊ธฐ ์ํด์ ๋ค์ ๋ฌธ์ฅ ์์ ๋งค๊ธฐ๊ธฐ, ๋ค์ ๋ฌธ์ฅ ๋จ์ด ์์ฑ๊ณผ ๊ฐ์ ๋ชฉ์ ํจ์๊ฐ ์ฌ์ฉ๋์๋ค.
(3) ELMo: ๋ฌธ๋งฅ ๊ธฐ๋ฐ ๋จ์ด ํํ
LSTM ๊ธฐ๋ฐ ์๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ์์ ์ขโ์ฐ ๋ฐ ์ฐโ์ข 2๊ฐ ๋ฐฉํฅ์ ๋ํ์ฌ ๋ฌธ๋งฅ์ ํน์ง ์ถ์ถํ๋ค. ๋ ๋ฐฉํฅ์ ํํ์ ์ฐ๊ฒฐํด์ ์ถ๋ ฅ์ ๊ตฌ์ฑํ์๊ณ ๊ทธ ๊ฒฐ๊ณผ, QA, ๊ฐ์ ๋ถ์, ๊ฐ์ฒด๋ช
์ธ์ ๋ฑ ๋ค์ํ ๊ณผ์ ์์ SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
์ด๊ธฐ์๋ ๋จ์ด ์๋ฒ ๋ฉ๋ง ์ฌ์ ํ์ตํ์๋๋ฐ, ์ต๊ทผ์๋ ๋ฌธ์ฅ/๋ฌธ์ ์์ค ์ธ์ฝ๋ ์ฌ์ ํ์ต ํ ์ ์ฒด ๋ชจ๋ธ fine-tuningํ๋ ๋ฐฉ์์ผ๋ก ์ฐ๊ตฌ๊ฐ ์งํ๋๊ณ ์๋ค.
GPT-1์ฒ๋ผ ์๋ก ํ์ตํ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ๋ค๋ ์ ์์ ํ์ต ํจ์จ ํฅ์๋๋ค๋ ์ฅ์ ์ด ์๋ค. GPT-1๋ GLUE ๋ฒค์น๋งํฌ์ ์ฌ๋ฌ ๋ฌธ์ฅ ์์ค ๊ณผ์ ์์ SOTA ๋ฌ์ฑํ๋ค.
๋๊ท๋ชจ ์ง๋ ํ์ต ๋ฐ์ดํฐ์์ ์ ์ด ํ์ตํ๋ ์๋๋ ์์๋ค. - ์์ฐ์ด ์ถ๋ก (NLI) ๊ธฐ๋ฐ ์ ์ด, ๊ธฐ๊ณ ๋ฒ์ญ ๊ธฐ๋ฐ ํํ ํ์ฉ
| ์ ๊ทผ ๋ฐฉ์ | ์ค๋ช | ๋ํ ๋ชจ๋ธ |
|---|---|---|
| Feature-based | ์ฌ์ ํ์ต ํํ์ ๊ณ ์ ๋ feature๋ก ์ฌ์ฉ | ELMo |
| Fine-tuning | ์ฌ์ ํ์ต ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๋ค์ด์คํธ๋ฆผ task์ ๋ง์ถฐ ์กฐ์ | GPT, ULMFiT |
| Supervised Transfer | ๋๊ท๋ชจ ์ง๋ ํ์ต ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ์ด | InferSent, McCann |
๐ก BERT๋ ์ฌ์ ํ์ต์์ ์๋ฐฉํฅ ๋ฌธ๋งฅ ํ์ต (MLM) + ํ์ธํ๋ ๊ธฐ๋ฐ ์ ์ด ํ์ต!
(1) Model Architecture
์๋ฐฉํฅ Transformer encoder๋ฅผ ์ฌ๋ฌ ์ธต ์์ ํํ๋ก, ์๋ณธ Transformer๊ณผ ๊ตฌ์กฐ๊ฐ ๊ฑฐ์ ๋์ผํ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ฌ์ด์ฆ๊ฐ ์๋ก ๋ค๋ฅธ 2๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
(*๋ GPT-1๊ณผ์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์ํด GPT-1๊ณผ ๊ฐ์ ํฌ๊ธฐ๋ก ์ค์ ํ๋ค.)
(2) Input/Output Representations
OoV ๋ฌธ์ ํด๊ฒฐ
e.g. "embeddings"
โ ๋จ์ด ์งํฉ์ em, ##bed, ##ding, #s๋ผ๋ ์๋ธ ์๋๋ค์ด ์กด์ฌ
โ embeddings๋ฅผ em, ##bed, ##ding, #s๋ก ๋ถ๋ฆฌ
[CLS] He went to school [SEP] He studied math [SEP]"He went to school" โ Segment A
"He studied math" โ Segment B
[CLS], [SEP]๋ Segment A, B ์ค ํ๋๋ก ์ฒ๋ฆฌ๋จ.
โป [CLS] ํ ํฐ : ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํ ํน๋ณํ ํ ํฐ
โป ์ด๋ ๋จ์ผ ๋ฌธ์ฅ์ด ์
๋ ฅ๋ ๋์๋ ๋ชจ๋ ํ ํฐ์ Segment A ์ฒ๋ฆฌํ๋ค.
์ฐ๋ฆฌ๋ ๋ค์ 2๊ฐ์ ๋น์ง๋ task๋ฅผ ํตํด ์ฌ์ ํ์ตํ๋ค.
[๊ทธ๋ฆผ5] MLM์์ ๋ง์คํน๋๋ ๋จ์ด ๋น์จ (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 17์ฅ https://wikidocs.net/115055)
1. Masking
์
๋ ฅ ํ
์คํธ์ 15%๋ฅผ ๋๋ค์ผ๋ก ๋ง์คํนํ๋๋ฐ, ์ด๋ ์๋ฐฉํฅ ํ์ต์ ์์ด ๋งค์ฐ ์ค์ํ ๊ธฐ๋ฅ์ด๋ค. ๋๋ค์ผ๋ก ์ ํํ 15% ๋จ์ด์ ๋ํ์ฌ ๋ค์๊ณผ ๊ฐ์ ์ฒ๋ฆฌ๋ฅผ ์งํํ๋ค.
ํด๋น ๋ถ๋ถ์ ๋ฆฌ๋ฉํ๋ค๊ฐ ๋ค์ 2๊ฐ์ ์๋ฌธ์ด ์๊ฒผ๋ค.
โ์ 15% ๋จ์ด ๋ชจ๋๋ฅผ masking ํ์ง ์๋๊ฐ
์ฌ์ ํ์ต ๋จ๊ณ์์ 100% ๋ง์คํน์ ํ๋ฉด, ํ์ธ ํ๋ ์ [MASK]๊ฐ ์๋ ํ๊ฒฝ๊ณผ ๋ถ์ผ์น ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ๊ทธ๋ ๋ค๊ณ [MASK]๋ฅผ ์์ ์์ ๋ฉด ๋ชจ๋ธ์ด ๋จ์ด๋ฅผ ๋ณต์ํ๋ ๋ฅ๋ ฅ์ ํ์ตํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
โ ๋ชจ๋ธ์ด ๋ง์คํน๋ ์ํฉ์์ ํ์ตํ๋ฉด์, ํ์ธ ํ๋ ๋จ๊ณ์์ ๋ถ์ผ์น๋ฅผ ์ค์ผ ์ ์๋๋ก ์ค๊ณ
โ10%๋ฅผ ๋ณ๊ฒฝํ์ง ์์ ๊ฑฐ๋ฉด ์ ์ด์ ๋๋ค ์ ํํ์ง ์์์ผ๋ฉด ๋์ง ์๋๊ฐ?
๋ชจ๋ธ์ด "๋ง์คํน ์์ฒด"๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํจ์ผ๋ก [๊ทธ๋ฆผ6]์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง, ์ด๋ ๊ฒ ์ ํ๋ ๋จ์ด์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ง ์ฌ์ฉํ์ฌ ์์ธก์ด ์งํ๋๋ค.
โ ๋ชจ๋ธ์ด ์ด๋ค ๋จ์ด๊ฐ ๋ง์คํน๋ ์ง ์์ธกํ ์ ์๊ฒ ๋๋ฏ๋ก, ๋ ๊ฐ๋ ฅํ ์ผ๋ฐํ ํ์ต์ด ๊ฐ๋ฅ
โ ๋ง์คํน๋ ๋จ์ด๋ฟ๋ง ์๋๋ผ ์๋ณธ ๋จ์ด๋ ํ์ตํ๊ฒ ๋์ด ๋ฌธ๋งฅ ์ดํด๋ ฅ์ด ํฅ์
2. ์ถ๋ ฅ์ธต

[๊ทธ๋ฆผ6] Masking ํ ์ถ๋ ฅ๋๋ ๊ณผ์ (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 17์ฅ https://wikidocs.net/115055)
์ถ๋ ฅ ์ ์ฌ์ฉ๋๋ ๋ฒกํฐ๋ ๋๋คํ๊ฒ ์ ํ๋ 15%์ ๋จ์ด ๋ฒกํฐ๋ก [๊ทธ๋ฆผ6]์์๋ ๋ค์๊ณผ ๊ฐ์ด ์ฒ๋ฆฌ๋์๋ค. ์ด๋ ๋ค๋ฅธ ํ ํฐ์ ๋ํ ์์ธก์ ๋ฌด์ํ๋ค.
- transofrmer self-attention๋ฅผ ํตํด ๋ชจ๋ ๋จ์ด์ ๋ํ attention score ๋ฒกํฐ ์์ฑ
- ๋ง์คํน or ์ ํ๋ ๋จ์ด์ ๋ฒกํฐ๋ง dense + softmax layer๋ก ๋๊ธฐ๊ธฐ
โ ์์ ์ธ๊ทผํ ๋ฐ์ ๊ฐ์ด, attention score๊น์ง๋ ๋ชจ๋ ๋จ์ด๊ฐ ๊ณ์ฐ๋์ง๋ง, ์ต์ข ์์ธก์์๋ ๋ง์คํน๋ ๋จ์ด์ ๋ฒกํฐ๋ง ์ฌ์ฉํ๋ค.
๋ค์์ ์ฌ ๋ฌธ์ฅ์ ์์ธกํ๋ ๊ณผ์ ์ผ๋ก, 2๊ฐ์ ๋ฌธ์ฅ์ ์ค ํ์ ์๋ก ์ด์ด์ง๋ ๋ฌธ์ฅ์ธ์ง ์๋์ง๋ฅผ ๋ง์ถ๋ ๋ฐฉ์์ด๋ค. ํ๋ จ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
[CLS] He went to school [SEP] He studied math [SEP]
[CLS], [SEP]๋ Segment A, B ์ค ํ๋๋ก ์ฒ๋ฆฌ๋จ.
[๊ทธ๋ฆผ7] NSP classifier (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 17์ฅ https://wikidocs.net/115055)
์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋ํ์ฌ ์ ๋ ฅ/์ถ๋ ฅ๋ง ๊ต์ฒดํ์ฌ ์ฒ๋ฆฌํ ์ ์๊ธฐ ๋๋ฌธ์ fine-tuning์ ๋น๊ต์ ๊ฐ๋จํ๋ค. ๊ณผ์ ์ ์ ํ์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ์ฒ๋ฆฌ๋๋ค.
ํ ํฐ ์์ค ๊ณผ์ (token-level task)
โ ๊ฐ ํ ํฐ์ ์ถ๋ ฅ ๋ฒกํฐ๋ฅผ ์ถ๋ ฅ์ธต์ ์ ๋ฌ
โ ์: ์ง์์๋ต, ์ํ์ค ํ๊น
๋ฌธ์ฅ ์์ค ๊ณผ์ (sentence-level task)
โ [CLS] ํ ํฐ์ ์ถ๋ ฅ ๋ฒกํฐ๋ฅผ ์ถ๋ ฅ์ธต์ ์ ๋ฌ
โ ์: ๊ฐ์ ๋ถ์, ๋ฌธ์ฅ ๋ถ๋ฅ, ํจ์ ํ๋ณ
- ๋ฌธ์ฅ ์ โ ํจ๋ฌํ๋ ์ด์ง
- ๊ฐ์ค-์ ์ ์ โ ํ ์คํธ ํจ์(entailment)
- ์ง๋ฌธ-๋ณธ๋ฌธ ์ โ ์ง์์๋ต(QA)
- ํ ์คํธ-๋น๋ฌธ์ฅ ์ โ ํ ์คํธ ๋ถ๋ฅ๋ ์ํ์ค ํ๊น
- batch_size = 32
- epochs = 3
- learning rate = [5e-5, 4e-5, 3e-5, 2e-5] ์ค ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ผ๋ก ์ฌ์ฉ
[CLS]์ ํด๋นํ๋ ์ต์ข
์๋ ๋ฒกํฐ(C)๋ฅผ ์ ์ฒด ๋ฌธ์ฅ์ ๋ํํ๋ ๋ฒกํฐ๋ก ์ฌ์ฉ
[๊ทธ๋ฆผ8] GLUE ์คํ ๊ฒฐ๊ณผ (์ถ์ฒ : ๋ ผ๋ฌธ ๋ฐ์ท)
SQuAD๋?
- Stanford Question Answering Dataset์ ์ฝ์๋ก, 10๋ง ๊ฐ์ ์ง๋ฌธ/๋ต๋ณ ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์์
- ์ ๋ ฅ : ์ฃผ์ด์ง ์ง๋ฌธ & ์ ๋ต์ด ํฌํจ๋ ์ํคํผ๋์ ๋ฌธ๋จ
- ์ถ๋ ฅ : ๋ฌธ๋จ ๋ด์์ ์ ๋ต์ด ํฌํจ๋ ํ ์คํธ(span)๋ฅผ ์์ธก
[๊ทธ๋ฆผ9] SQuAD v1.1 (์ถ์ฒ : ๋ ผ๋ฌธ ๋ฐ์ท)
- batch_size = 32
- epochs = 3
- learning rate = 5e-5
SQuAD v2.0์ด๋?
SQuAD v1.1์ ํ์ฅ๋ ๋ฒ์ ์ผ๋ก ๋ฌธ๋จ ๋ด์ โ์งง์ ์ ๋ตโ์ด ์กด์ฌํ์ง ์์ ๊ฐ๋ฅ์ฑ์ ๋์ด ๋ณด๋ค ํ์ค์ ์ผ๋ก ๋ฌธ์ ๋ฅผ ์ ์ํจ
[๊ทธ๋ฆผ10] SQuAD v2.0 (์ถ์ฒ : ๋ ผ๋ฌธ ๋ฐ์ท)
- batch_size = 48
- epochs = 2
- learning rate = 5e-5
- TriviaQA ์ฌ์ฉX
SWAG์ด๋?
- Situations With Adversarial Generations์ ์ฝ์๋ก, 113,000๊ฐ์ ๋ฌธ์ฅ ์์ฑ ์์ ๋ก ๊ตฌ์ฑ๋จ
- ์ ๋ ฅ : ํ๋์ ๋ฌธ์ฅ
- ์ถ๋ ฅ : ๋ค์์ ์ฌ ๋ฌธ์ฅ 4๊ฐ ์ค ๋ฌธ๋งฅ ์ ๊ฐ์ฅ ์ ์ ํ ๋ฌธ์ฅ ์ ํ
๊ฐ ์ ๋ ฅ ๋ฌธ์ฅ๊ณผ 4๊ฐ์ ์ ํ์ง๋ฅผ ์กฐํฉํ์ฌ ์ด 4๊ฐ์ ์ ๋ ฅ ์ํ์ค ์์ฑ
e.g. "๋จ์๊ฐ ์์ ๋ป์ด ๋ฌธ์ ์ด์๋ค." ๋ค์ ์ฌ ๋ฌธ์ฅ ์ ํ
(A) ๊ทธ๋ ๋ฐฉ์ผ๋ก ๋ค์ด๊ฐ๋ค.
(B) ๊ทธ๋ ๊ฐ์๊ธฐ ๋ฌ๋ฆฌ๊ธฐ ์์ํ๋ค.
(C) ๋ฌธ์ด ์ ์ ๋ก ๋ซํ๋ค.
(D) ๊ทธ๋ ์กฐ์ฉํ ๋
ธ๋๋ฅผ ๋ถ๋ฅด๊ธฐ ์์ํ๋ค.
[๊ทธ๋ฆผ11] SWAG (์ถ์ฒ : ๋ ผ๋ฌธ ๋ฐ์ท)
- batch_size = 16
- epochs = 3
- learning rate = 2e-5