Original Paper : GPT-1 (https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf)

Transformer ์ ๋ฆฌ ๊ธ ์ฐธ๊ณ https://velog.io/@angel5893/Transformer-Attention-Is-All-You-Need-2017
์ด์ ๊น์ง๋ attention์ RNN์ ๋ณด์ ์ฉ๋๋ก ์ฌ์ฉํด์๋ค๋ฉด, Transformer์์๋ ์ด ๊ฐ๋ ๋ง ์ฌ์ฉํ์ฌ RNN์ ๋นผ๊ณ self-attention์ผ๋ก Encoder์ Decoder๋ฅผ ๊ตฌ์ฑํ๋ค.
RNN ํน์ CNN ๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์๊ธฐ ๋๋ฌธ์ ์ํ์ค์ ์์๋ฅผ ๋ํ๋ด๊ธฐ ์ํด์ ์ถ๊ฐ์ ์ธ ์์น ํ ํฐ์ ์ฝ์ ํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด encoder์ decoder ํ๋จ์ ์ ๋ ฅ ์๋ฒ ๋ฉ์ "์์น ์๋ฒ ๋ฉ"์ ์ถ๊ฐํ๋ค.
์ด๋ ์ฌ์ธ-์ฝ์ฌ์ธ ๊ธฐ๋ฐ ์ธ์ฝ๋ฉ์ ์ฌ์ฉํ์ฌ ๊ฐ ์ฐจ์๋ณ๋ก ๋ค๋ฅธ ์ฃผํ์๋ฅผ ์ ์ฉํ๋ค.
self-attention
![]()
[๊ทธ๋ฆผ1] self-attention ๊ณ์ฐ ๊ณผ์ (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 16์ฅ [https://wikidocs.net/35596])
[๊ทธ๋ฆผ2] encoder, decoder์์ ์ฌ์ฉ๋๋ self-attention ์ข ๋ฅ (์ถ์ฒ : ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ - 16์ฅ [https://wikidocs.net/35596])
1. encoder self-attention : ์ธ์ฝ๋์์ ์ฌ์ฉ๋๋ ์ดํ ์
2. masked decoder self-attention : ๋์ฝ๋์ 1๋ฒ์งธ ํ์ ๊ณ์ธต
3. encoder-decoder attention : ์ธ์ฝ๋ ๋ฒกํฐ๋ฅผ ์ธํ์ผ๋ก ๋ฐ๋ ์ดํ ์
NLP ๋ถ์ผ๋ ๋ฌธ์ฅ ํจ์, QA, ์๋ฏธ์ ์ ์ฌ์ฑ ํ๊ฐ ๋ฑ ๋ค์ํ ํ์คํฌ๊ฐ ์กด์ฌํ๋๋ฐ, ๊ฐ ํ์คํฌ์ ๋ํด labeled data, ์ฆ ์ ๋ต์ด ์กด์ฌํ๋ ๋ฐ์ดํฐ๋ ๋งค์ฐ ํฌ์ํ๋ค.
์ด์ ๋ณธ ๋ ผ๋ฌธ์ unlabeled text๋ก ์ฌ์ ํ์ตํ ํ, ๊ฐ ํ์คํฌ์ ๋ํด์ fine-tuningํ๋ ๋ฐฉ์์ ์ ์ํ๋ค.
ํด๋น ๋ชจ๋ธ์ ๋ค์ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์๋ค.
(1) unlabeled data๋ฅผ ํตํ ๋น์ง๋ ํ์ต์ ์ค์์ฑ
raw data์์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ ๋ฅ๋ ฅ์ NLP์์ ์ง๋ ํ์ต์ ๋ํ ์์กด๋๋ฅผ ์ค์ด๋ ๋ฐ ์์ด ๋งค์ฐ ์ค์ํ๋ค. ๊ทธ๋ฐ๋ฐ ๋๋ถ๋ถ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฒ์ ๋ฐฉ๋ํ ์์ labeled data๋ฅผ ํ์๋ก ํ๋ฉฐ, ์ด๋ label์ด ๋ถ์กฑํ ๋ถ์ผ์ ๋ชจ๋ธ์ ์ ์ฉํ๋ ๋ฐ ์์ด ์ฅ์ ๋ฌผ์ด ๋ ์ ์๋ค.
์ด์ ๋ฐ๋ผ unlabeled data๋ก๋ถํฐ ์ธ์ด์ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๋ ๋ชจ๋ธ์ด ์ถ๊ฐ์ ์ธ ๋ผ๋ฒจ ์์ ์์ด๋ ์ ์ฉํ ๋์์ ์ ๊ณตํ ์ ์๋ค. ๋๋ถ์ด, ์ถฉ๋ถํ ์ง๋ ํ์ต ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ์๋, ๋น์ง๋ ๋ฐฉ์์ผ๋ก ์์ง์ ํํ์ ํ์ตํ๋ ๊ฒ์ ์ฑ๋ฅ ํฅ์์ ํฐ ๋์์ด ๋๋ค.
(2) ๋จ์ด ์๋ฏธ ์ด์์ ์ ๋ณด(๋ฌธ๋งฅ ๋ฑ)๋ฅผ ๋น์ง๋ ํ์ต์ผ๋ก ์ถ์ถํ๋ ๊ฒ์ด ์ด๋ ค์ด ์ด์
์ด๋ค ๋ชฉ์ ํจ์๊ฐ ๊ฐ์ฅ ์ ํฉํ์ง ๋ถ๋ถ๋ช ํ๋ค. ์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ํ์คํฌ์ ๋ฐ๋ผ ๊ฐ๊ฐ ๋ค๋ฅธ ์ต์ ํ ๋ชฉ์ ํจ์๊ฐ ๋ค๋ฅธ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
๋น์ง๋์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ํ์ต๋ ํํ์ ์ ์ดํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด ํต์ผ๋์ง ์์๋ค. ํ์ฌ, ๊ตฌ์กฐ ๋ณ๊ฒฝ, ๋ณต์กํ ํ์ต ๊ตฌ์กฐ, ๋ณด์กฐ ๋ชฉ์ ํจ์ ์ถ๊ฐ ๋ฑ์ผ๋ก ์ ์ด ํ์ต์ ์งํํ๊ณ ์๊ธฐ ๋๋ฌธ์ ํจ๊ณผ์ ์ธ ์ค์ง๋ ํ์ต ๋ฐฉ์์ ์ ๋ฆฝํ๋ ๊ฒ์ด ์ด๋ ต๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ค์ ์กฐํฉ์ ํตํด ์ค์ง๋ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
"๋น์ง๋ ๋ฐฉ์์ ์ฌ์ ํ์ต + ์ง๋ ๋ฐฉ์์ fine-tuning "
1. ์ฌ์ ํ์ต : ๊ฐ์ ๋๋ฉ์ธ์ด ์๋, universalํ unlabeled data๋ฅผ ํ์ตํจ์ผ๋ก์จ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ ํ์ต
2. fine-tuning : ๊ฐ ํ์คํฌ์ ๋ง๊ฒ ์ง๋ํ์ต์ ํตํด ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์
(3) Transformer ๋ชจ๋ธ ํ์ฉ
Transformer๋ RNN๋ณด๋ค ์ฅ๊ธฐ ์์กด์ฑ ์ฒ๋ฆฌ์ ์์ด ๋ฐ์ด๋ ๋ชจ์ต์ ๋ณด์ด๋ฉฐ ๊ธฐ๊ณ๋ฒ์ญ, ๋ฌธ์ ์์ฑ ๋ฑ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๋ชจ๋ธ์ด๋ผ๋ ์ ์์ ๋ค์ํ ๊ณผ์ ์ ๊ฑธ์ณ ๊ฒฌ๊ณ ํ ์ ์ด ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค.
์ ์ด ๊ณผ์ ์์ ํ์ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๊ตฌ์กฐํ๋ ํ ์คํธ ์ ๋ ฅ์ ํ๋์ ์ฐ์์ ์ธ ์ํ์ค๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ต์ํ์ ๋ณํ๋ฅผ ์ฃผ๋ฉด์ fine-tuning์ ํจ๊ณผ์ ์ผ๋ก ํ ์ ์๊ฒ ํด์ค๋ค.
(4) ์คํ ๊ฒฐ๊ณผ : ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์
(1) Semi-supervised learning for NLP
์ด๊ธฐ์ ์ค์ง๋ ํ์ต์ unlabeled data๋ฅผ ํ์ตํ์ฌ ๋จ์ด ์์ค ํน์ ๊ตฌ ์์ค์ ํต๊ณ์ ๋ณด๋ฅผ ๊ณ์ฐํ ๋ค, ์ด๋ฅผ ์ง๋ ํ์ต ๋ชจ๋ธ์ feature๋ก ํ์ฉํ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ๋์๋ค.
์ง๋ ๋ช ๋ ๊ฐ ๋ง์ด ์ฌ์ฉ๋์๋ word embedding์ ๋จ์ด ์์ค, ์ฆ ๊ฐ ๋จ์ด ์์ฒด์ ์๋ฏธ ์์ค์ ์ ๋ณด๋ง ์ ์ดํ๋ ๋ฐ์ ๊ทธ์ณค๋ค.
์ต๊ทผ ์ฐ๊ตฌ๋ค์ unlabeled data๋ก๋ถํฐ ๊ตฌ/๋ฌธ์ฅ ์์ค์ ์๋ฏธ ํํ์ ํ์ตํ๊ณ , ์ด๋ฅผ ๋ค์ํ ๊ณผ์ ์์ ํ์ฉ ๊ฐ๋ฅํ ๋ฒกํฐ ํํ์ผ๋ก ์ ํํ๋ ๋ฐ ์ฑ๊ณตํ๊ณ ์๋ค.
(2) Unsupervised pre-training
์ค์ง๋ ํ์ต์ ํน์ด ์ผ์ด์ฌ, ์ง๋ ํ์ต ๋ชฉ์ ํจ์๋ฅผ ์์ ํ๋ ๋์ ์ ์ข์ ์ด๊ธฐํ ๊ฐ์ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ์ด๋ค.
์ฌ์ ํ์ต ํ fine-tuning์ ์งํํ๋ ๋ฐฉ์์ ์ด๋ฏธ ์ ํ ์ฐ๊ตฌ์์ ์ ์๋์์ผ๋, ํด๋น ๋ชจ๋ธ์์๋ LSTM์ ์ฌ์ฉํ์๊ธฐ ๋๋ฌธ์ ์งง์ ๋ฒ์ฃผ์ ์์ธก๋ง ๊ฐ๋ฅํ๋ค๋ ๋ฌธ์ ์ ์ด ์์๋ค. ๋ณธ ๋ชจ๋ธ์ transformer๋ฅผ ํตํด ์ด๋ฌํ ์ฅ๊ธฐ ๊ธฐ์ต ์์ค์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
(3) Auxiliary training objectives
๋ณด์กฐ ํ์ต ๋ชฉํ, ์ฆ ์ฃผ์ ๋ชฉํ ์ธ์ ์ถ๊ฐ๋ก ํ์ตํ๋ ๋ชฉ์ ํจ์๋ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ํํ๋ ฅ์ ๋์ด๋ ๋ฐฉ์์ผ๋ก, ์ผ์ข ์ ์ค์ง๋ ํ์ต์ด๋ผ๊ณ ํ ์ ์๋ค.
POS ํํน, ์ฒญํน, ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉ์ ์ถ๊ฐ ๋ฑ ์ต๊ทผ ๋ค์ํ ๋ณด์กฐ ๋ชฉ์ ์ ํตํด ์ฑ๋ฅ์ด ํฅ์๋์ง๋ง, ๋ณธ ์ฐ๊ตฌ์์๋ ๊ฐ๋ ฅํ ๋น์ง๋ ์ฌ์ ํ์ต ์์ฒด๋ง์ผ๋ก๋ ๋ง์ ์ธ์ด์ ์ ๋ณด๊ฐ ๋ชจ๋ธ์ ๋ด์ฌ๋จ์ ๋ณด์ฌ์ค๋ค. ์ฆ, ๋ณด์กฐ ๋ชฉ์ ์ ์ต์ ์ ๋ถ๊ณผํ๋ฉฐ ์ฌ์ ํ์ต๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
[๊ทธ๋ฆผ3] unsupervised pre-training ๊ตฌ์กฐ (์ถ์ฒ : ๋ ผ๋ฌธ ๋ฐ์ท)
(1) ๋ชฉ์ ํจ์ (๊ฐ ํ๋ผ๋ฏธํฐ๋ SGD๋ฅผ ํตํด ์ต์ ํ)
( โป ์ด๋, )
(2) tranformer decoder
๋ณธ ๋ ผ๋ฌธ์์๋ Transformer decoder๋ฅผ 12๊ฐ ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ๊ฐ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
(โป์๋ ๊ณผ์ ์ ๋ํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ๋์์๋ ๊ฒ์ด ์๋๋ผ ํ์๊ฐ ์์นญ์ ํตํด ์ ๋ฆฌํ ๋ด์ฉ์ผ๋ก ํ๋ฆฐ ๋ถ๋ถ์ด ์์ ์ ์์)
1. ์ ๋ ฅ๊ฐ ์๋ฒ ๋ฉ :
- : ๋น์ง๋ ์ฝํผ์ค์ ํ ํฐ๋ค
BPE๋ก ํ ํฌ๋์ด์ฆ๋์ด ์ฌ์ ์์์ ์์๋๋ก ๊ฐ ํ ํฐ์ ๋ฒํธ๊ฐ ๋ถ์ฌ๋ผ์๋ ์ํ- : ํ ํฐ ์๋ฒ ๋ฉ ํ๋ ฌ
- : ์์น ์๋ฒ ๋ฉ ํ๋ ฌ
โ ์ ์์์์ ๋ค์๋ ์๋ฌธ
์์์์ ์ ๊ฐ ๊ณฑํด์ง๋ค๊ณ ๋ผ์๋๋ฐ, ๋ฃฉ์
์ด ๋๋ ค๋ฉด ๊ฐ ์-ํซ ๋ฒกํฐ์ฌ์ผ ๊ฐ๋ฅํ ๊ฒ ์๋๊ฐ? ๋ด๊ฐ ์ธํฐ๋ท ์ฐพ์๋ดค์ ๋, ๋ ์ฌ์ ์์์ ๊ฐ ์์๊ฐ ๋ฒํธ๋ก ๋์ด๋ผ์๋ ๋ฒกํฐ๋ผ๊ณ ํ๋๋ฐ ๋ญ์ง?
โ ์์์์๋ง ์ ๋ ๊ฒ ๊ณฑํ๋ค๊ณ ๋ํ๋ ๊ฒ์ด๊ณ , ์ค์ ๋ก๋ ์ ๊ฐ ์์๋ฅผ ์ธ๋ฑ์ค ์ผ์ ์์ ์ธ๋ฑ์ฑํ์ฌ ์ฌ์ฉ
e.g. [1] = 32 โ [32] = [0.1, ... , 0.08] ์ ๋ํ๊ธฐ
2. Masked Multi Self Attention
(1) 1.์์ ๊ณ์ฐํ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์๋ณธ ์ผ์ Q, K, V ๋ฒกํฐ ์์ฑ
(2) ๊น์ง ๊ตฌํ ํ, ์์ผ๊ฐ ๋ถ๋ถ์ด ์ผ๋ก ๊ตฌ์ฑ๋ผ์๋ ์์ผ๊ฐ ํ๋ ฌ ๋ํ๊ธฐ
โ ์ฐจ์ :
(3) maskingํ ๋ฅผ softmax์ ํต๊ณผ์ํค๊ธฐ =
(4) V์ ๊ณฑํ ๋ค์์ ๋์จ ํ๋ ฌ์ head ๊ฐ์๋งํผ concatํ ํ, ๊ฐ์ค์น ์ ๊ณฑํจ์ผ๋ก์จ ์ ํ ๋ณํ
๊ธ๋ก๋ง ์ ์ผ๋ฉด ๋ค์ ๋ณผ ๋ ์ดํดํ๊ธฐ ์ด๋ ค์ธ ๊ฒ ๊ฐ์ผ๋ ๋ค์ ์์๋ฅผ ํตํด ๊ณผ์ ์ ๋ค์ ํ ๋ฒ ๋ณต์ตํด๋ณด์.
์์ ๋ฌธ์ฅ : "I am in Paris"
(0) ์ด 4๊ฐ์ ํ ํฐ์ ๋ํ์ฌ ํ ํฌ๋์ด์ง โ ํ ํฐ ์๋ฒ ๋ฉ ๋ฐ ํฌ์ง์ ์๋ฒ ๋ฉ ์งํ
(1) ๊ณ์ฐ
(2) masking
(3) Softmax์ ํต๊ณผ
(4) V์ ๊ณฑํ์ฌ ์ต์ข attention output ๊ณ์ฐ (multi-head concat ๋ด์ฉ์ ์๋ต)
3. Residual Connection
- Transformer์์ ์ฌ์ฉ๋ ์์ฐจ ์ฐ๊ฒฐ์ GPT-1 ๋ชจ๋ธ์์๋ ์ฌ์ฉ
- ๊ณผ ์๋ค๋ก ์์ฐจ ํ์ต ์ฌ์ฉ
- ์์ฐจ ํ์ต์ ๋ชฉ์
(1) ๊ธฐ์ธ๊ธฐ ์์ค ๋ฐฉ์งโ ํญ๋ฑํ๋ ฌ๋ก ์ธํด ๊ธฐ์ธ๊ธฐ๊ฐ ํญ์ 1 ์ด์์ผ๋ก ์ ์ง๋จ
(2) ํ์ต ์์ ์ฑ ํฅ์ (์ฐ์ฐ๋ ๊ฐ์X)
์ฐ์ฐ ์์ฒด๋ ์ด์ ๊ฐ์ ๋ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ฝ๊ฐ ๋์ด๋๋ค๊ณ ํ ์ ์์ง๋ง, ์ด๊ธฐ๊ฐ์ ์ดํ์๋ ์์ ์ ์ผ๋ก ๊ธฐ์ตํ ์ ์๋ค. (์ฐ์ฐ๋ ๊ฐ์๋ ์์ฐจ ํ์ต์ ๋ชฉ์ ์ด ์๋)
โ ResNet ๋๋ถํฐ ๋ค์๋ ์๋ฌธ
์์ฐจ ํ์ต์ด๋ฉด ์ด์ ๊ฐ์ ๋บ ์์ฐจ๊ฐ์ ํ์ตํ๋๊ฑด๊ฐ? ๊ทธ๋ผ ๊ณ์ฐ์ด ๋ ๋ณต์กํด์ง์ง ์๋?
โ ๋ง์ด "์์ฐจ" ํ์ต์ด์ง, ์ฌ์ค์ ๊ทธ๋ฅ ์ด์ ๊ฐ์ ์๋กญ๊ฒ ๊ณ์ฐ๋ ๊ฐ์ ๋ํ๋ ๊ฒ์!
4. Layer Norm
- Post LN : Residual Connection ๋ค์ ์์นํ ์ ๊ทํ๋ฅผ ์๋ฏธ
- ์ ๊ทํ์ ์ญํ : ๊ฐ์ scale ์ ๋ ๋ฐ ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ํ์ตํ๊ฒ ํจ
5. Feed Forward : ๋น์ ํ์ฑ ์ถ๊ฐ
(1) โ ์ผ๋ฐ์ ์ผ๋ก
(2)
(3)
6. Mask ํด๋์๋, ์ฆ ๋ฏธ๋ ๋จ์ด๋ฅผ ์์ธกํ ํ, loss ๊ณ์ฐ ํ ์ญ์ ํ ์งํ
- unsupervised pre-training์ธ ๋งํผ, ๋ณ๋์ label์ด ์กด์ฌํ์ง ์๋๋ค.
- ์์ 2.์์ maskํด๋ ๋จ์ด ์์ธก
1. ์ ๋ ฅ๊ณผ label
labeled dataset ์ฌ์ฉ
- ์ ๋ ฅ ์ํ์ค :
- ์ ๋ต ๋ผ๋ฒจ :
2. ์ถ๋ ฅ ํ๋ฅ ๊ณ์ฐ
(1) ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฌ์ ํ์ต๋ GPT ๋ชจ๋ธ์ ํต๊ณผ์์ผ ๋ง์ง๋ง Transformer ๋ธ๋ก์ ๋ง์ง๋ง ํ ํฐ ์ถ๋ ฅ ์ป๊ธฐ
(2) ์ด ๋ฒกํฐ๋ฅผ ์๋กญ๊ฒ ์ถ๊ฐ๋ ์ ํ ๋ถ๋ฅ๊ธฐ ์ ๋ฃ์ด ์์ธก ํ๋ฅ ์ ๊ณ์ฐ
3. fine-tuning ์์ค ํจ์
4. ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ๋ง ์์ค ์ ๋ณด์กฐ ํ์ต ๋ชฉํ๋ก ์ถ๊ฐ
fine-tuning ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ์์ ์ฌ์ ํ์ต์์ ์ค์ ํ๋ ์ ๋ณด์กฐ๋ก ๊ฐ์ด ํ์ต
โ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ ๋ฐ ํ์ต ์๋ ด ์๋ ์ฆ๊ฐ
1. ๋ฌธ์ฅ ๋ถ๋ฅ : ๊ธฐ์กด ์ฌ์ ํ์ต ๋ชจ๋ธ์ layer ์ถ๊ฐ
(1) linear : ๋ถ๋ฅ๋ ํด๋์ค ๊ฐ์๋ก ์ฐจ์ ๋ณํ
(2) softmax : ๊ฐ ํด๋์ค์ ์ํ ํ๋ฅ ๊ณ์ฐ
(3) loss ๊ณ์ฐ ํ ์ญ์ ํ ์งํ
2. ํ
์คํธ ํจ์, ์ ์ฌ์ฑ, QA / Multi-turn QA, ์์์ ์ถ๋ก : input ์ฒ๋ฆฌ
์ ํ ์ฐ๊ตฌ์์๋ ์ถ๊ฐ์ ์ธ ๊ตฌ์กฐ ์ปค์คํฐ๋ง์ด์ง ๋ฐ ์ ์ํคํ ์ฒ๋ฅผ ํ์๋ก ํจ. ์ฆ, ๋ณต์กํ ๊ณผ์ ์ด ํ์ํ์.
ํ์ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ํตํด ๊ตฌ์กฐํ๋ ํ ์คํธ ์ ๋ ฅ์ ํ๋์ ์ฐ์์ ์ธ ์ํ์ค๋ก ์ฒ๋ฆฌ
(QA ์์)
context : ๋ฏผ์ฑ์ด๊ฐ ์นํจ์ด ๋จน๊ณ ์ถ์ ๋๋ง๋ค ์ผ๋ณธ์ ๊ณ์ ์๋น ๊ป ๋ง์๋๋ฆฌ๋ฉด, ์๋น ๊ป์ ์๊ธฐ์๋ก ์นํจ์ ์์ผ์ฃผ์ ๋ค.
Question : ๋ฏผ์ฑ์ด์ ์๋น ๋ ์ด๋ป๊ฒ ์นํจ์ ์ํค์๋๊ฐ?
=> context์ question์ ํ๋๋ก ํฉ์ณ์ input์ผ๋ก!
โcontext์ ๋ํ ๊ถ๊ธ์ฆ
context๋ ์ด๋ป๊ฒ ๋ถ์ฌ์ฃผ๋๊ฐ? ์ฌ์ฉ์๊ฐ ์ผ์ผ์ด ์
๋ ฅํ์ง๋ ์์ ๊ฒ ๊ฐ์๋ฐ
โ fine-tuning : SQuAD ๋ฑ์ ๋ฐ์ดํฐ์
ํ์ฉ
โ ์ค์ : RAG ๋ชจ๋ธ์ด context ํ๋ณด๋ฅผ ์ฐพ์์ด