๐์ฐธ๊ณ ์๋ฃ
[ ๊ธฐ์กด ์์ฐ์ด ์ฒ๋ฆฌ ๋ฐฉ๋ฒ๋ค๊ณผ ์ด ๋ฐฉ๋ฒ๋ค์ ์ฃผ์ ๋ฌธ์ ์ ]
์์ ํ ์คํธ๋ก๋ถํฐ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์์ ๊ฐ๋ ๋ ํ์ต์ ๋ํ ์์กด์ฑ์ ์ํํ๋ ๋ฐ ์ค์
๋๋ถ๋ถ์ ๋ฅ ๋ฌ๋ ๋ฐฉ๋ฒ์ ์๋นํ ์์ ์๋์ผ๋ก ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ฉฐ, ์ด๋ ์ฃผ์์ด ๋ฌ๋ฆฐ ๋ฆฌ์์ค๊ฐ ๋ถ์กฑํ ๋ง์ ๋๋ฉ์ธ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ํ
์ด๋ฌํ ์ํฉ์์ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ธ์ด ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ๋ ๋ง์ ์ฃผ์์ ์์งํ๋ ๊ฒ๋ณด๋ค ๋์์ ์ ๊ณต
๋ํ unsupervised ๋ฐฉ์์ผ๋ก ์ข์ ํํ์ ํ์ตํ๋ ๊ฒ์ด ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ ๊ณต
๋ ์ด๋ธ์ด ์๋ ํ ์คํธ๋ก๋ถํฐ ๋จ์ด ์์ค ์ด์์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๊ฒ์ ๋ ๊ฐ์ง ์ฃผ์ ์ด์ ๋ก ์ด๋ ค์์ด ์์
์ด ๋ ผ๋ฌธ์์๋ unsupervised pre-training + supervised fine tuning์ ๊ฒฐํฉํ semi-supervised language understanding ์์ ์ ๊ทผ ๋ฐฉ๋ฒ์ ํ๊ตฌ
์ฐ๋ฆฌ์ ๋ชฉํ๋ ๋ค์ํ ์์ ์ ์ ์ ์ ์์ผ๋ก ์ ๋ฌํ ์ ์๋ ๋ณดํธ์ ์ธ ํํ์ ํ์ตํ๋ ๊ฒ
์ฐ๋ฆฌ๋ ๋ ์ด๋ธ์ด ์๋ ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค์ ์๋์ผ๋ก ์ฃผ์์ด ๋ฌ๋ฆฐ ํ๋ จ ์์ ๊ฐ ํฌํจ๋ ์ฌ๋ฌ ๋ฐ์ดํฐ ์ธํธ(๋์ ์์ )์ ์ก์ธ์คํ ์ ์๋ค๊ณ ๊ฐ์
๋ ๋จ๊ณ ํ๋ จ ์ ์ฐจ
๋ชจ๋ธ ์ํคํ ์ฒ๋ก๋ Transformer๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ด๋ ๊ธฐ๊ณ ๋ฒ์ญ, ๋ฌธ์ ์์ฑ, ๊ตฌ๋ฌธ ํ์ฑ ๋ฑ ๋ค์ํ ์์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
์ค๊ฐ๋ ํ์ต์ NLP์ ์์ด์ ์ด ๋ ผ๋ฌธ์ด ์ํ๋ ๋ฒ์ฃผ
์ด ํจ๋ฌ๋ค์์ ์ํ์ค ๋ผ๋ฒจ๋ง์ด๋ text classification ๊ฐ์ ์์ ์ ์ ์ฉ๋์ด ์๋นํ ๊ด์ฌ์ ๋ฐ์
์ด๊ธฐ ์ ๊ทผ ๋ฐฉ์
์ต๊ทผ์ ์ ๊ทผ ๋ฐฉ์
์ฐ๋ฆฌ์ ์ฐ๊ตฌ์ ๊ฐ์ฅ ๋ฐ์ ํ ์ฐ๊ตฌ ๋ผ์ธ์ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๊ฒฝ๋ง์ ์ฌ์ ํ๋ จํ ๋ค์ ๊ฐ๋ ๋ ์์ ์์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ํ ์คํธ ๋ถ๋ฅ๋ฅผ ๊ฐ์ ํ์
๊ทธ๋ฌ๋ ์ฌ์ ํ๋ จ ๋จ๊ณ๋ ์ผ๋ถ ์ธ์ด ์ ๋ณด๋ฅผ ํฌ์ฐฉํ๋ ๋ฐ ๋์์ด ๋์ง๋ง, ์ด ์ ํ ์ฐ๊ตฌ๋ LSTM ๋ชจ๋ธ์ ์ฌ์ฉํ์๋๋ฐ ์ด๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์์ธก ๋ฅ๋ ฅ์ ์งง์ ๋ฒ์๋ก ์ ํํจ
๋ฐ๋ฉด์, ์ฐ๋ฆฌ์ Transformer ์ ํ์ ์คํ์์ ๋ณด์ฌ์ค ๊ฒ์ฒ๋ผ ๋ ๊ธด ๋ฒ์์ ์ธ์ด ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉ.
๋ํ, ์์ฐ ์ธ์ด ์ถ๋ก , ๋จ์ด ์ฌ๋ฐฐ์น ๊ฐ์ง ๋ฐ ์ด์ผ๊ธฐ ์์ฑ์ ํฌํจํ ๋ ๋์ ๋ฒ์์ ์์ ์์ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค.
๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋๋ ๊ธฐ๊ณ ๋ฒ์ญ ๋ชจ๋ธ์์ ์จ๊ฒจ์ง ํํ์ ๋์ ์์ ์์ ๊ฐ๋ ๋ ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ณด์กฐ ๊ธฐ๋ฅ์ผ๋ก ์ฌ์ฉ. ์ด๋ ๊ฐ๊ฐ์ ๋ณ๋ ๋์ ์์ ์ ๋ํด ์๋นํ ์์ ์๋ก์ด ๋งค๊ฐ๋ณ์๊ฐ ํ์ํ๋ฉฐ, ๋ฐ๋ฉด์ ์ฐ๋ฆฌ๋ transfer ์ค์ ๋ชจ๋ธ ์ํคํ ์ฒ์ ์ต์ํ์ ๋ณ๊ฒฝ๋ง์ ์๊ตฌ
๋ณด์กฐ ๋น๊ฐ๋ ํ๋ จ ๋ชฉํ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ semi- supervised learning ์ ๋ ๋ค๋ฅธ ํํ.
์ฐ๋ฆฌ์ ์คํ์์๋ ๋ณด์กฐ ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋น๊ฐ๋ ์ฌ์ ํ๋ จ์ ์ด๋ฏธ ๋์ ์์ ์ ๊ด๋ จ๋ ์ฌ๋ฌ ์ธ์ด ์ธก๋ฉด์ ํ์ตํจ
๋๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ฉฐ ํ์ตํจ
๐จ [์ฌ์ ํ๋ จ ๋จ๊ณ] ๋๊ท๋ชจ ์์ ํ ์คํธ ์ฝํผ์ค์์ ๋์ฉ๋ ์ธ์ด ๋ชจ๋ธ ํ์ต
๐จ [๋ฏธ์ธ์กฐ์ ๋จ๊ณ] ์ํ๋ ์์ ์ ๋ฐ๋ผ ๋ ์ด๋ธ ์๋ ๋ฐ์ดํฐ ํ์ฉํด ์ฐจ๋ณ์ ์ผ๋ก ๋ชจ๋ธ ์ ์์ํด
๐จ ์ธ์ด ๋ชจ๋ธ๋ก ๋ค์ธต Transformer ๋์ฝ๋๋ฅผ ์ฌ์ฉ < = > ๋ค์์ ๋์ฌ ๋จ์ด๋ฅผ ๋ง์ถ๋๋ก ํ์ต Next Word Prediction
ํธ๋์คํฌ๋จธ ๋์ฝ๋์์ ์ฐจ์ด์
Encoder๋ฅผ ์ฌ์ฉํ์ง ์๋ ์ด์
gpt1์ ๋์ฝ๋ ์๋ ํ๋ฆ
unsupervised loss function
unsupervised์ธ ์ฝํผ์ค์ ํ ํฐ U = {u1, ..., un}๋ฅผ ๊ฐ์ง๊ณ ํ์ค ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ์ต๋ํ โ maxmize likelihood ์ต๋ ์ฐ๋ํ ๊ธฐ๋ฒ
์ฐ๋
๐จ ํน์ ํ ๋จ์ด๊ฐ ๋ง์ฝ i๋ฒ์งธ๋ผ๋ฉด i-1 ๋ถํฐ i-k๋ฒ์งธ๊น์ง์ ๋จ์ด๋ฅผ ๋ณด๊ณ , i๋ฒ์งธ๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ์ ์ต๋ํํ๋ ๋ฐฉ๋ฒ์ ํตํด ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ์์๋ ํ์ต์ด ๊ฐ๋ฅํ๋๋กย ํ๋ค.
์ฆ, i๋ฒ์งธ text๊ฐ ๋์ฌ ํ๋ฅ ์ ๋ํด์ ์ต๋ํ ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ maxmize likelihood(์ฐ๋ ์ต๋ํ) ๊ธฐ๋ฒ์ loss function์ผ๋ก ์ค์ ํ์ฌ ํ์ตํ๋ค!!!
๐จ pre-trained ๋ชจ๋ธ์ ์ฅ์ ์ ์ด๋ ค์ linear+softmax์ layer๋ง ์ถ๊ฐํ๊ณ ๊ทธ ์ด์ ์ freeze์์ผ์ ํ์ต์ ์งํํ์ฌ fine-tuning์ผ๋ก ๋ชจ๋ธ์ ํ์ต
๋ชฉํ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ ํ, labeled dataset์ ๊ฐ์ง๋ target task์ ๋ํด ๋งค๊ฐ๋ณ์๋ฅผ ์ ์์ํด
input tokens ์ ํด๋นํ๋ label y๋ฅผ ์์ธกํด์ผ ํ ๋, ์ ๋ชจ๋ธ์ ๋ง์ง๋ง ํธ๋์คํฌ๋จธ ๋ธ๋ก์ activation ์ input์ผ๋ก ํ๋ linear layer๋ฅผ ์ถ๊ฐ
์ด๋ฅผ ํตํด ์ต๋ํํ ๋ชฉํ
โ ํ์ตํ๊ณ ์ ํ task์ ๋ํ loss function(์ต๋ ์ฐ๋):
์ถ๊ฐ์ ์ผ๋ก fine-tuning์ auxiliary objective๋ก LM์ ํฌํํ๋ ๊ฒ์ด, supervised model์ generalization์ ํฅ์์ํค๊ณ , ๋ชจ๋ธ์ด ๋น ๋ฅด๊ฒ ์๋ ดํ๋๋กํ์ฌ ํ์ต์ ๋์์ด ๋จ์ ํ์ธํ์์.
์ฆ ๋ค์์ objective๋ฅผ ์ต์ ํ.
์ ๋ฐ์ ์ผ๋ก, ๋ฏธ์ธ ์กฐ์ ์ค์ ํ์ํ ์ถ๊ฐ ๋งค๊ฐ๋ณ์๋ ๋ฟ
์ฐ๋ฆฌ๋ ์ํ ์คํ์ผ ์ ๊ทผ๋ฒ์ ์ฌ์ฉ
์ฌ๊ธฐ์๋ ๊ตฌ์กฐํ๋ ์ ๋ ฅ์ ์ฐ๋ฆฌ์ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๋ ์์ ์๋ ์ํ์ค๋ก ๋ณํ. ์ด๋ฌํ ์ ๋ ฅ ๋ณํ์ ์์ ๊ฐ์ ์ํคํ ์ฒ๋ฅผ ๊ด๋ฒ์ํ๊ฒ ๋ณ๊ฒฝํ ํ์ ์์ด ์ฐ๋ฆฌ๊ฐ ํจ๊ณผ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ ์ ์๋๋ก ํจ
๋ชจ๋ ๋ณํ์๋ ๋ฌด์์๋ก ์ด๊ธฐํ๋ ์์ ๋ฐ ์ข ๋ฃ ํ ํฐ(<s>, <e>)์ด ํฌํจ๋จ
๊ฐ ํ ์คํฌ์ ํด๋นํ๋ ์ ๋ ฅ์ ๋ณํ
์ผ์ชฝ : ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ, ์ด ์์ ์์ ์ฌ์ฉ๋๋ ํ์ต ๋ชฉํ๋ค / ์ค๋ฅธ์ชฝ : ๋ชจ๋ ๊ตฌ์กฐํ๋ ์ ๋ ฅ์ ํ ํฐ ์ํ์ค๋ก ๋ณํํ์ฌ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์์ ์ฒ๋ฆฌํ ๋ค์ ์ ํ ์ํํธ๋งฅ์ค ๊ณ์ธต์ ์ฌ์ฉ
Textual entailment ํ ์คํธ ์ถ๋ก
์ถ๋ก ์์ ์ ๊ฒฝ์ฐ, ์ ์ p์ ๊ฐ์ค h ํ ํฐ ์ํ์ค๋ฅผ ๊ตฌ๋ถ ํ ํฐ($), Delim์ ์ฌ์ด์ ๋๊ณ ์ฐ๊ฒฐ
Similarity
์ ์ฌ์ฑ ์์ ์ ๊ฒฝ์ฐ, ๋น๊ต๋๋ ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ณ ์ ํ ์์๊ฐ ์์
์ด๋ฅผ ๋ฐ์ํ๊ธฐ ์ํด ์ ๋ ฅ ์ํ์ค๋ฅผ ๋ ๊ฐ์ง ๊ฐ๋ฅํ ๋ฌธ์ฅ ์์(์ฌ์ด์ ๊ตฌ๋ถ์ ํฌํจ)๋ก ์์ ํ๊ณ ๊ฐ๊ฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ ์ํ์ค ํํ์ ์์๋ณ๋ก ์ถ๊ฐํ ํ ์ ํ ์ถ๋ ฅ ๋ ์ด์ด๋ก ์ ๋ฌ
Question Answering and Commonsense Reasoning
๋ฌธ๋งฅ ๋ฌธ์ z, ์ง๋ฌธ q ๋ฐ ๊ฐ๋ฅํ ๋ต๋ณ {a_k}์ด ์ฃผ์ด์ง
์ฐ๋ฆฌ๋ ๋ฌธ์ ์ปจํ ์คํธ์ ์ง๋ฌธ์ ๊ฐ ๊ฐ๋ฅํ ๋ต๋ณ๊ณผ ํจ๊ป ์ฐ๊ฒฐํ๊ณ , ์ฌ์ด์ ๊ตฌ๋ถ ํ ํฐ์ ์ถ๊ฐํ์ฌ [z; q; $; a_k]๋ฅผ ์ป์.
์ด๋ฌํ ๊ฐ ์ํ์ค๋ ์ฐ๋ฆฌ ๋ชจ๋ธ๋ก ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ๋ ๋ค์ ๊ฐ๋ฅํ ๋ต๋ณ์ ๋ํ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ํํธ๋งฅ์ค ์ธต์ ํตํด ์ ๊ทํ๋ฉ๋๋ค.
๋น์ง๋ ์ฌ์ ํ์ต - ์ฌ์ฉํ ๋ฐ์ดํฐ์
๋น์ง๋ ์ฌ์ ํ์ต - ๋ชจ๋ธ ์ธ๋ถ์ฌํญ
์ง๋ํ์ต - ์์ฐ์ด ์ถ๋ก
์ง๋ํ์ต - question answering and commonsense reasoning
์ง๋ํ์ต - Semantic similarity and classification
Impact of Number of Layers Transferred & Zero Shot Behaviors
Layer์ ๊ฐ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ๊ณผ Zero shot ์ฑ๋ฅ ์คํ
์ฌ์ฉํ ๋ ์ด์ด๊ฐ ๋ง์์๋ก ์ฑ๋ฅ ์ ์ฐจ ์ข์์ง
pretrained ์ ๋ณด๋ฅผ ๋ง์ด ์ฌ์ฉํ ์๋ก Fine Tuning ํ์๋์ ์ฑ๋ฅ์ด ์ข๋ค๋ ์๋ฏธ
๊ฒฐ๊ณผ์ ์ผ๋ก Pretrained Model์ Down Stream Task๋ฅผ ํด๊ฒฐํ๊ธฐ์ ์ ์ฉํ ์ ๋ณด๋ฅผ ๋ง์ด ๊ฐ์ง๊ณ ์๋ค๋๊ฒ์ ์ ์ ์์
โ ์ฆ GPt-1์์ ์ ์ํ๋ ๋ค์ ๋จ์ด ์์ธกํ๊ธฐ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ถ๋ถ์ Down Stream Task์ ์ ํฉํ๋ค๊ณ ๊ฒฐ๋ก
Ablation
ํน์ ๊ธฐ๋ฅ ์ ๊ฑฐํด๋ด์ผ๋ก์จ ๊ทธ ๊ธฐ๋ฅ์ ํจ๊ณผ๋ฅผ ์คํํด๋ด