BERT ์ดํ์ ๋์จ ์ฐ๊ตฌ์์๋ MASK token์ ๋ถํฌ๋ฅผ ๋ฐ๊พธ์ด ํ๋ จํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ์๋๋ฐ ์ด๋ฐ ๋ฐฉ๋ฒ๋ก ์ span prediction, generation ๋ฑ์์ ์๋์ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ ํ์คํฌ์ ์ ์ฉํ ์๋ ์๋ค. encoder๋ง ์กด์ฌํ๋ BERT๋ ์ผ๋ฐ์ ์ธ ์
๋ฌด๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ณ , decoder๋ง ์กด์ฌํ๋ GPT๋ ์๋ฐฉํฅ ๋ฌธ๋งฅ์ ๋ณด๋ฅผ ๋ฐ์ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค.
BART๋ Bidirectional๊ณผ Auto-Regressive Transformer๋ฅผ ํฉ์น ๋ชจ๋ธ์ด๋ค. BART๋ seq2seq ๋ชจ๋ธ๋ก ๋ง๋ค์ด์ง denosing autoencoder์ด๋ฉฐ ๋๊ฐ์ง์ Pretraining๋จ๊ณ๊ฐ ์๋ค.
BART๋
- transformer ๊ธฐ๋ฐ์ ์ ๊ฒฝ๋ง ๊ธฐ๊ณ ๋ฒ์ญ ๊ตฌ์กฐ๋ก, BERT์ GPT๋ฅผ ์ผ๋ฐํํ๋ค๊ณ ๋ณผ ์ ์๋ค.
- noising์ ์ ์ฐ์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ค ์์์ ๋ณํ์ด๋ผ๋ ๊ธฐ์กด ํ ์คํธ์ ๋ฐ๋ก ์ ์ฉ๋ ์ ์๋ค.
โถ๏ธ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ด๋ noising์ ๊ธฐ์กด ๋ฌธ์ฅ์ ์์๋ฅผ ๋๋คํ๊ฒ ์๊ณ ์์์ ๊ธธ์ด์ ํ ์คํธ๋ฅผ ํ๋์ ๋จ์ผ MASK token์ผ๋ก ๊ต์ฒดํ๋ ๊ฒ์ด๋ค.- ํ ์คํธ ์์ฑ์ fine-tuning์ ํ์์ ๋ ํนํ ํจ์จ์ ์ด์ง๋ง, conprehension ํ์คํฌ์์๋ ์ ๋์ํ๋ค.
BART๋ seq2seq ๋ชจ๋ธ๋ก ๊ตฌํ๋๊ณ , noising์ ํตํด ์์๋ ํ ์คํธ๋ฅผ BERT๊ฐ encodingํ๊ณ GPT decoder๊ฐ ์ด๋ฅผ ๋ฐ๋๋ค. Pretraing์ ์ํด ๊ธฐ์กด ๋ฌธ์์ negative log likelihood๋ฅผ ์ต์ ํ ํ๋ค.
BART์ decoder๋ GPT์์ ์ฌ์ฉํ๋ ReLUํจ์ ๋์ GeLU๋ก ๋ณ๊ฒฝํ์๊ณ , ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ ๋ก ํ๋ค.
base(encoder์ decoder layer์ ๊ฐ์๊ฐ ๊ฐ๊ฐ 6๊ฐ)์ large(encoder์ decoder layer์ ๊ฐ์๊ฐ ๊ฐ๊ฐ 12๊ฐ) ํฌ๊ธฐ์ ๋ชจ๋ธ์ด ์กด์ฌํ๋ค.
BERT์์ ์ฐจ์ด์
- decoder์ ๊ฐ layer๋ encoder์ ์ต์ข hidden layer์ cross-attention์ ์ํํ๋ค.
โถ๏ธ key, value๋ก ๊ฐ์ ๊ฐ์ ์ฌ์ฉํ์ง๋ง query๋ ๋ค๋ฅธ ๊ฐ์ ์ฌ์ฉํ๋ ์ดํ ์ ์ฐ์ฐ(์ฆ, query โ key = value)์ cross attention ์ฐ์ฐ์ด๋ผ ํ๋ค.- encoder๊ฐ ๋ฐ๋ก masking๋ ๋จ์ด๋ฅผ ์ ์ถํ์ง ์๊ธฐ ๋๋ฌธ์ feed-forward ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ง ์๋๋ค.
BART๋ ๋ฌธ์๋ฅผ ์ค์ผ์ํจ ๋ค resontruction loss(decoder์ output - ๊ธฐ์กด๋ฌธ์์ cross-entropy loss)๋ฅผ ์ต์ ํ ์ํค๋ ๊ฒ์ผ๋ก ํ๋ จ์ ์งํํ๋ค.
BART๋ ๋ค์ํ corruption์ ์ ์ฉํ ์ ์๋ค. ์๋๋ ์คํ์ ์ฌ์ฉ๋ ๋ค์ํ noising ๊ธฐ๋ฒ๋ค์ด๋ค.
BART๊ฐ ์์ฑํด๋ด๋ representation์ ์ฌ๋ฌ ๋ค์ด์คํธ๋ฆผ ์ดํ๋ฆฌ์ผ์ด์
์์ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ฉ๋ ์ ์๋ค.
Sequence Classification Task๋ ์ด๋ ํ ์ํ์ค๋ฅผ ๋ถ๋ฅํ๋ ํ์คํฌ์ด๋ค.
encoder์ decoder๋ ๊ฐ์ input๊ฐ์ ์ฌ์ฉํ๋ค. decoder์ ๋ง์ง๋ง hidden state๊ฐ ์๋ก์ด nulti-class linear classifier๋ก ์ ๋ฌ๋๋ค.
๋ง์ง๋ง ํ ํฐ๊น์ง ์
๋ ฅ์ด ์๋ฃ๋๋ฉด ์ ์ฒด ์
๋ ฅ์ ๋ํ decoder์ attention์ ๊ณ์ฐํ ์ ์๋ค.
์ ์ฒด ๋ฌธ์๋ฅผ encoder์ decoder์ ์ ๋ ฅํ๋ค. decoder์ top hidden state๋ฅผ ๊ฐ ๋จ์ด์ ๋ํ representation์ผ๋ก ์ฌ์ฉํ์ฌ ์ด๋ฅผ ํ ํฐ ๋ถ๋ฅ์ ์ฌ์ฉํ๋ค.
๊ธฐ์กด BERT๋ encoder๋ง์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ generation ํ์คํฌ๋ฅผ ์ํํ์ง ๋ชปํ๋๋ฐ BART๋ autoregressive decoder๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ abstractive question answering๊ณผ summarization๊ณผ ๊ฐ์ sequence generation ํ์คํฌ์ ๋ฐ๋ก ์ ์ฉ ํ ์ ์๋ค.
์์ด๋ฅผ ๋ค๋ฅธ ์ธ์ด๋ก ๋ฒ์ญํ๋ ๊ฒ์ด Machine Translation ํ์คํฌ์ด๋ค. BART ๋ชจ๋ธ ์ ์ฒด๋ฅผ Machine Translation์ ์ํ pre-trained decoder๋ก ์ฌ์ฉํ๊ณ bitext๋ก๋ถํฐ ํ์ต๋ ์๋ก์ด encoder๋ฅผ ์ถ๊ฐํด ์ธ์ฝ๋-๋์ฝ๋๋ฅผ fine-tuning ํ๋ค.
โถ๏ธ ์๋ก ์ถ๊ฐ๋ encoder๋ end-to-end๋ก ํ์ต๋๋ฉฐ, ์ด encoder๋ฅผ ํ์ต์ํด์ผ๋ก์จ ์ธ๊ตญ์ด ๋จ์ด๋ค์ ์์ด๋ก mappingํด BART๊ฐ ์ธ๊ตญ์ด๋ฅผ denoiseํ ์ ์๋๋กํ๋ค.
์๋ก์ด encoder๋ฅผ ํ์ต์ํค๋ ๋ฐฉ๋ฒ
๋๊ฐ์ง์ ๋จ๊ณ๊ฐ ์๋๋ฐ ๋ ๋จ๊ณ๋ณด๋ฌด cross-entropy loss๋ฅผ ์ต์ ํํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค.
- ์ฒซ๋ฒ์งธ ๋จ๊ณ : BART์ ๋๋ถ๋ถ์ ํ๋ผ๋ฏธํฐ๋ฅผ freezeํ๊ณ ๋๋ค์ผ๋ก ์ด๊ธฐํ๋ source encoder, BART encoder์ ์ฒซ๋ฒ์งธ ๋ ์ด์ด self-attention input projection matrix๋ง ํ์ต์ํจ๋ค.
- ๋๋ฒ์งธ ๋จ๊ณ : ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ต์ํจ๋ค.
BART๋ ์์๋ ๋ฌธ์๋ฅผ ๊ธฐ์กด ๋ฌธ์๋ก ๋งคํํ๋ ๊ฒ์ผ๋ก ํ์ตํ๋ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ๋ก ์ ์ด์ฉํ ๋ชจ๋ธ์ด๋ค. BART๋ ๋ถ๋ฅ task์์ RoBERTa์ ๋น์ทํ ์ฑ๋ฅ์ ๋ด๋ฉด์๋ generation task์์๋ state-of-the-art ์ฑ๋ฅ์ ๋ณด์๋ค. ํฅํ ์ฐ๊ตฌ๋ก pre-training์ ์ํ document๋ฅผ ์์์ํค๋ ๋ฐฉ๋ฒ์ ๋ ์กฐ์ฌํด์ผํ ํ์๊ฐ ์๋ค.