๐ Improving Language Understanding by Generative Pre-Training
โ๏ธ๊ฐ๋ ์ ์ ๋ฆฌํ๊ธฐ ์ํด ์์ฑํ ๊ธ๋ก, ๋ด์ฉ์ ์๋ชป๋ ๋ถ๋ถ์ด ์์ ์ ์๋ค๋ ์ ์ฐธ๊ณ ๋ฐ๋๋๋ค.
๋ ผ๋ฌธ์์๋ ์์๊ฐ ์๋์ ๊ฐ์ด ๊ตฌ์ฑ๋์ด์๋ค.
- Introduction
- Related Work
- Framework
- Unsupervised pre-training
- Supervised fine-tuning
- Experiments
- SetUp
- Supervised fine-tuning
- Analysis
- Conclusion
์ด ๊ธ์ ๋ ผ๋ฌธ ์์๋ฅผ ๊ทธ๋๋ก ๋ฐ๋ผ๊ฐ๊ธฐ๋ณด๋ค๋ ๋ด๊ฐ ๊ณต๋ถํ ๋ ์ดํดํ๊ธฐ ํธํ๋ ํ๋ฆ๋๋ก ์์ฑํ๋ ค๊ณ ํ๋ค.
NLP ๋ถ์ผ๋ labeled data๊ฐ ํ์ ์ ์ด๊ธฐ ๋๋ฌธ์ raw text๋ก๋ถํฐ ํจ์จ์ ์ผ๋ก ํ์ตํ๋ ๊ฒ์ด ์ค์ํ๋ค.
(โต manually labelingํ๊ธฐ ์ด๋ ค์ + ๋๋ผ๋ง๋ค ์ธ์ด๊ฐ ๋ค๋ฅด๋ค๋ ๋ฌธ์ ์ )
๋ฐ๋ผ์ ์ง๋ํ์ต ์์กด๋๋ฅผ ์ค์ด๊ณ ์ Unsupervised learning์ ์ง์คํ๊ธฐ ์์ํ๋ค.
ํ์ง๋ง ๋น์ง๋ํ์ต์ผ๋ก๋ ๋จ์ด ์์ค ์ด์์ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ด๋ ค์ ๋๋ฐ, ์ด์ ๋ ์๋ 2๊ฐ์ง์ ๊ฐ๋ค.
์ด 2๊ฐ์ง ๋ชจํธ์ฑ ๋๋ฌธ์ ๋น์ง๋ํ์ต์์ ์ด๋ ค์์ ๊ฒช์์ง๋ง
์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ผ 1๋ฒ ๋ฌธ์ ์ ๊ฒฝ์ฐ, language modeling, machine translation, discourse coherence๊ฐ ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค.
โ GPT๋ ๋์ฉ๋์ unlabeled text๋ก language modeling objective์ ๋ํด pre-trainingํ๊ณ ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ฅผ labeled data๋ก fine-tuningํ๋ semi-supervised learning ๋ฐฉ์์ ์งํํ๋ค.
Language Modeling
= being trained to predict the next word in a sequence of words
= ๋ค์ ๋จ์ด ์์ธก task
GPT๋ ๋ณ๋์ input์ด ์กด์ฌํ์ง ์๊ธฐ ๋๋ฌธ์ Transformer ์ค Decoder๋ง์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ค.
Transformer๋ LSTM์ด๋ ๊ธฐ์กด RNN์ ๋นํด ์๋์ ๊ฐ์ ์ธก๋ฉด์์ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค.
: ๋์ฉ๋์ unlabeled corpus๋ก language model ๋ง๋ค๊ธฐ
โ ๋ค์ ๋จ์ด ์์ธก
โ self-attention์ ํตํด context ํ๋ ฌ ๊ฐ ๊ฐ์ transformer block์ ๊ฑฐ์ณ ์์ธกํ๊ณ ์ ํ๋ ํ ํฐ์ ํ๋ฅ ๋ถํฌ ๊ตฌํ๊ธฐ
๊ฒฐ๊ณผ์ ์ผ๋ก๋
โ k๋ฒ์งธ ์ด์ ๋จ์ด๋ถํฐ ์ง์ ๋จ์ด๊น์ง ์ฃผ์ด์ก์ ๋, ํ์ฌ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ ์ด ์ต๋๊ฐ ๋๋๋ก ์ฌ์ ํ์ต ๋จ๊ณ์์ ๋ชจ๋ธ์ ํ์ต์์ผ์ผ ํ๋ค.
: labeled data๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ํน์ task์ ์ ์ฉํ๊ธฐ
๊ฒฐ๊ณผ์ ์ผ๋ก๋
โ ์ ๋ ฅ ํ ํฐ๋ค์ด ์ฃผ์ด์ก์ ๋ ์ ๋ต ๋ผ๋ฒจ(= ๋ค์์ ๋ํ๋ ๋จ์ด)๋ก ์์ธกํ ํ๋ฅ ์ด ์ต๋๊ฐ ๋๋๋ก ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
fine-tuning์ ํ ๋ ๋ณ๋๋ก ํ์ํ ํ๋ผ๋ฏธํฐ๋ ๋ผ๋ฒจ์ ๋ํ ๊ฐ์ค์น์ธ ํ๋๋ก, pre-train๊ณผ fine-tuning ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ๊ฐ ๊ฑฐ์ ๋ฌ๋ผ์ง์ง ์๋ ์ฅ์ ์ด ์๋ค.
pre-trained๋ ๋ชจ๋ธ์ labeled data๋ฅผ ๋ฃ์ด pre-train ๋ฐฉ์๋๋ก ๋ชจ๋ธ์ ํ ๋ฒ ๋ ํ์ต์ํค๊ณ ์ดํ fine-tuning์ ํ๊ธฐ๋ ํ๋ค.
์ด ๊ฒฝ์ฐ, supervised model์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ์ฅ์ ์ด ์๋ค.
+) generalization
: ๊ฐ์ ๋ฐ์ดํฐ๋ก ๋ค๋ฅธ task๋ฅผ ํ๋ค (X)
: ๊ฐ์ task์ ๋ค๋ฅธ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค (O)
โ ์์ ๊ฐ์ด language modeling์ fine-tuning์ ๋ณด์กฐ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉํ๋ฉด ์์ ํ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ฃ์์ ๋๋ ๊ฐ์ task์ ๋ํด์๋ ์ฑ๋ฅ์ด ์ ๋์ค๊ฒ ๋๋ค.
task๋ง๋ค ๊ตฌ์กฐํ๋ input์ ๋ชจ๋ธ ์
๋ ฅ์ฉ sequence๋ก ๋ณํํ๋ ๊ณผ์ ์ด ํ์ํ๋ค.
Input : structured inputs โ token sequences
์ด๋ task๋ง๋ค ๋ณํ ํํ๊ฐ ์ฝ๊ฐ ๋ฌ๋ผ์ง์ง๋ง
๊ณตํต์ ์ผ๋ก ๋ฌธ์ฅ์ ์์๊ณผ ๋์ <s>
, <e>
ํ ํฐ์ ๋ฃ์ด์ค์ผ ํ๋ค.
GPT์ BERT ๋ชจ๋ Transformer์์ ํ์๋ ๋ชจ๋ธ์ด์ง๋ง ๋ชฉ์ ๊ณผ ๊ตฌ์กฐ๊ฐ ํ์ฐํ ๋ค๋ฅด๋ค.
๊ธฐ๊ณ ๋ฒ์ญ์ ๋ชฉ์ ์ผ๋ก ๋ง๋ค์ด์ง ๋ชจ๋ธ๋ก,
ใ์ธ์ด A์ ๋ํ ํน์ง์ ํ์
ํ๋ Encoder + ์ธ์ด B์ ๋ํ ํน์ง์ ํ์
ํ๊ณ ์ด๋ฅผ Encoder์์ ์ป์ ํน์ง๊ณผ ๊ฒฐํฉํด A โ B๋ก ๋ฒ์ญํ๋ Decoderใ ๋ก ๊ตฌ์ฑ๋์๋ค.
๋ฅ๋ฌ๋์ผ๋ก word embedding์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด ๋ง๋ค์ด์ง ๋ชจ๋ธ๋ก,
ใEncoder์ self-attention + masking๋ ์
๋ ฅใ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ฐฉํฅ ์ฐธ์กฐ๋ฅผ ํตํด ๋ฌธ๋งฅ์ ํ์
ํ ์ ์๋ค.
์์ฑ์ ์ํ ๋ชจ๋ธ๋ก,
ใLinear, softmax layer๊ฐ ํฌํจ๋ Decoderใ๋ง์ ์ฌ์ฉํด ๋ค์ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ ์ ์ ์์ธกํ๋๋ก ์ค๊ณ๋์๋ค.
๐ Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)
ใด GPT ๋ฟ๋ง ์๋๋ผ ์ ๋ฐ์ ์ธ NLP์ ๋ํด ์ ๋ง ์ค๋ช
์ด ์ ๋์ด์๋ค. ์ฝ์ด๋ณด๋ฉด์ ๋ง์ ๋์์ด ๋์๋ค ๐๐ป
๐ Improving Language Understanding by Generative Pre-Training (GPT1)
๐ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์์ฐ์ด์ฒ๋ฆฌ ๋ชจ๋ธ ๊ฐ๋ตํ๊ฒ ํ์ด๋ณด๊ธฐ
๐ Transformer (Attention Is All You Need) ๊ตฌํํ๊ธฐ (1/3)