๐Ÿ“„ BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

์„œ์€์„œยท2023๋…„ 9์›” 6์ผ
0

Paper Review

๋ชฉ๋ก ๋ณด๊ธฐ
5/6

1. Introduction

BERT ์ดํ›„์— ๋‚˜์˜จ ์—ฐ๊ตฌ์—์„œ๋Š” MASK token์˜ ๋ถ„ํฌ๋ฅผ ๋ฐ”๊พธ์–ด ํ›ˆ๋ จํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์—ˆ๋Š”๋ฐ ์ด๋Ÿฐ ๋ฐฉ๋ฒ•๋ก ์€ span prediction, generation ๋“ฑ์—์„œ ์ž˜๋™์ž‘ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ชจ๋“  ํƒœ์Šคํฌ์— ์ ์šฉํ•  ์ˆ˜๋Š” ์—†๋‹ค. encoder๋งŒ ์กด์žฌํ•˜๋Š” BERT๋Š” ์ผ๋ฐ˜์ ์ธ ์—…๋ฌด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๊ณ , decoder๋งŒ ์กด์žฌํ•˜๋Š” GPT๋Š” ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

BART๋Š” Bidirectional๊ณผ Auto-Regressive Transformer๋ฅผ ํ•ฉ์นœ ๋ชจ๋ธ์ด๋‹ค. BART๋Š” seq2seq ๋ชจ๋ธ๋กœ ๋งŒ๋“ค์–ด์ง„ denosing autoencoder์ด๋ฉฐ ๋‘๊ฐ€์ง€์˜ Pretraining๋‹จ๊ณ„๊ฐ€ ์žˆ๋‹ค.

  • ํ…์ŠคํŠธ๋ฅผ ์ž„์˜์˜ noising ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•ด ์˜ค์—ผ์‹œํ‚จ๋‹ค.
  • seq2seq ๋ชจ๋ธ์ด ์›๋ž˜์˜ ํ…์ŠคํŠธ๋ฅผ ๋ณต์›ํ•˜๊ธฐ์œ„ํ•ด ํ•™์Šต๋œ๋‹ค.

BART๋Š”

  • transformer ๊ธฐ๋ฐ˜์˜ ์‹ ๊ฒฝ๋ง ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๊ตฌ์กฐ๋กœ, BERT์™€ GPT๋ฅผ ์ผ๋ฐ˜ํ™”ํ–ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
  • noising์˜ ์œ ์—ฐ์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์–ด๋–ค ์ž„์˜์˜ ๋ณ€ํ˜•์ด๋ผ๋„ ๊ธฐ์กด ํ…์ŠคํŠธ์— ๋ฐ”๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
    โ–ถ๏ธŽ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” noising์€ ๊ธฐ์กด ๋ฌธ์žฅ์˜ ์ˆœ์„œ๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ์„ž๊ณ  ์ž„์˜์˜ ๊ธธ์ด์˜ ํ…์ŠคํŠธ๋ฅผ ํ•˜๋‚˜์˜ ๋‹จ์ผ MASK token์œผ๋กœ ๊ต์ฒดํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
  • ํ…์ŠคํŠธ ์ƒ์„ฑ์— fine-tuning์„ ํ•˜์˜€์„ ๋•Œ ํŠนํžˆ ํšจ์œจ์ ์ด์ง€๋งŒ, conprehension ํƒœ์Šคํฌ์—์„œ๋„ ์ž˜ ๋™์ž‘ํ•œ๋‹ค.

2. Model

BART๋Š” seq2seq ๋ชจ๋ธ๋กœ ๊ตฌํ˜„๋˜๊ณ , noising์„ ํ†ตํ•ด ์†์ƒ๋œ ํ…์ŠคํŠธ๋ฅผ BERT๊ฐ€ encodingํ•˜๊ณ  GPT decoder๊ฐ€ ์ด๋ฅผ ๋ฐ›๋Š”๋‹ค. Pretraing์„ ์œ„ํ•ด ๊ธฐ์กด ๋ฌธ์„œ์˜ negative log likelihood๋ฅผ ์ตœ์ ํ™” ํ•œ๋‹ค.

2.1 Architecture

BART์˜ decoder๋Š” GPT์—์„œ ์‚ฌ์šฉํ•˜๋Š” ReLUํ•จ์ˆ˜ ๋Œ€์‹  GeLU๋กœ ๋ณ€๊ฒฝํ•˜์˜€๊ณ , ํŒŒ๋ผ๋ฏธํ„ฐ ์ดˆ๊ธฐํ™”๋Š” N(0,0.2)N(0,0.2)๋กœ ํ–ˆ๋‹ค.
base(encoder์™€ decoder layer์˜ ๊ฐœ์ˆ˜๊ฐ€ ๊ฐ๊ฐ 6๊ฐœ)์™€ large(encoder์™€ decoder layer์˜ ๊ฐœ์ˆ˜๊ฐ€ ๊ฐ๊ฐ 12๊ฐœ) ํฌ๊ธฐ์˜ ๋ชจ๋ธ์ด ์กด์žฌํ•œ๋‹ค.

BERT์™€์˜ ์ฐจ์ด์ 

  • decoder์˜ ๊ฐ layer๋Š” encoder์˜ ์ตœ์ข… hidden layer์™€ cross-attention์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.
    โ–ถ๏ธŽ key, value๋กœ ๊ฐ™์€ ๊ฐ’์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ query๋Š” ๋‹ค๋ฅธ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋Š” ์–ดํ…์…˜ ์—ฐ์‚ฐ(์ฆ‰, query โ‰  key = value)์„ cross attention ์—ฐ์‚ฐ์ด๋ผ ํ•œ๋‹ค.
  • encoder๊ฐ€ ๋ฐ”๋กœ masking๋œ ๋‹จ์–ด๋ฅผ ์œ ์ถ”ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— feed-forward ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค.

2.2 Pretraining BART

BART๋Š” ๋ฌธ์„œ๋ฅผ ์˜ค์—ผ์‹œํ‚จ ๋’ค resontruction loss(decoder์˜ output - ๊ธฐ์กด๋ฌธ์„œ์˜ cross-entropy loss)๋ฅผ ์ตœ์ ํ™” ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ•œ๋‹ค.
BART๋Š” ๋‹ค์–‘ํ•œ corruption์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋ž˜๋Š” ์‹คํ—˜์— ์‚ฌ์šฉ๋œ ๋‹ค์–‘ํ•œ noising ๊ธฐ๋ฒ•๋“ค์ด๋‹ค.

  • Token Masking
    ๋žœ๋ค์œผ๋กœ ํ† ํฐ๋“ค์ด ์ƒ˜ํ”Œ๋ง๋˜์–ด MASK ํ† ํฐ์œผ๋กœ ์น˜ํ™˜๋œ๋‹ค. ๋ชจ๋ธ์€ ์ด MASK ํ† ํฐ์ด ์–ด๋–ค ํ† ํฐ์ด์—ˆ๋Š”์ง€ ๋งž์ถ”๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋œ๋‹ค.
  • Token Deletion
    ๋žœ๋คํ•œ ํ† ํฐ๋“ค์ด ์ œ๊ฑฐ๋œ๋‹ค. ์œ„์˜ ๋ฐฉ์‹๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ ๋ชจ๋ธ์€ input์˜ ์–ด๋Š ์œ„์น˜์—์„œ ์ด ํ† ํฐ์ด ์‚ฌ๋ผ์กŒ๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋„ ํ•จ๊ป˜ ํ•™์Šตํ•ด์•ผํ•œ๋‹ค.
  • Text Infilling
    ํฌ์•„์†ก ๋ถ„ํฌ(ฮป=3\lambda =3)๋ฅผ ๋”ฐ๋ฅด๋Š” ๊ธธ์ด์˜ text span์„ ์ƒ์„ฑํ•ด์„œ ์ด๋ฅผ ํ•˜๋‚˜์˜ MASK ํ† ํฐ์œผ๋กœ ๋งˆ์Šคํ‚นํ•œ๋‹ค. ๋ชจ๋ธ์€ MASKํ† ํฐ์— ํ•ด๋‹น๋˜๋Š” ๋‹จ์–ด๋“ค์„ ๋งž์ถฐ์•ผํ•œ๋‹ค. ์—ฌ๋Ÿฌ ํ† ํฐ์ด ํ•˜๋‚˜์˜ mask ํ† ํฐ์œผ๋กœ ๋ฐ”๋€” ์ˆ˜ ์žˆ๊ณ , ๊ธธ์ด๊ฐ€ 0์ธ ๊ฒฝ์šฐ์—๋Š” mask ํ† ํฐ๋งŒ ์ถ”๊ฐ€๋  ์ˆ˜๋„ ์žˆ๋‹ค.
  • Sentence Permutation
    ํ•˜๋‚˜์˜ ๋ฌธ์„œ๊ฐ€ ๋งˆ์นจํ‘œ๋ฅผ ๊ธฐ์ค€์œผ๋กœ(๋ฌธ์žฅ๋ณ„๋กœ) ๋ถ„๋ฆฌ๊ฐ€ ๋˜๋ฉฐ, ์ด ๋ฌธ์žฅ๋“ค์€ ๋žœ๋คํ•˜๊ฒŒ ์ˆœ์„œ๊ฐ€ ์„ž์ธ๋‹ค. ๋ชจ๋ธ์€ ์ด ๋ฌธ์žฅ๋“ค์„ ์›๋ž˜์˜ ์ˆœ์„œ๋Œ€๋กœ ๋ฐฐ์—ดํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์ด ๋œ๋‹ค.
  • Document Rotation
    ํ•˜๋‚˜์˜ ํ† ํฐ์ด ๋žœ๋ค์œผ๋กœ ๋™์ผํ•œ ํ™•๋ฅ ๋กœ ์„ ํƒ๋˜๊ณ , ๋ฌธ์„œ๊ฐ€ ์„ž์—ฌ ํ•ด๋‹น ํ† ํฐ์ด ๋ฌธ์„œ์˜ ์‹œ์ž‘์ ์ด ๋œ๋‹ค. ๋ชจ๋ธ์€ ๋ฌธ์„œ์˜ ์‹œ์ž‘์ ์„ ์ฐพ๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋œ๋‹ค.

3. Fine-tuning BART

BART๊ฐ€ ์ƒ์„ฑํ•ด๋‚ด๋Š” representation์€ ์—ฌ๋Ÿฌ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

3.1 Sequence Classification Tasks

Sequence Classification Task๋Š” ์–ด๋– ํ•œ ์‹œํ€€์Šค๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ํƒœ์Šคํฌ์ด๋‹ค.
encoder์™€ decoder๋Š” ๊ฐ™์€ input๊ฐ’์„ ์‚ฌ์šฉํ•œ๋‹ค. decoder์˜ ๋งˆ์ง€๋ง‰ hidden state๊ฐ€ ์ƒˆ๋กœ์šด nulti-class linear classifier๋กœ ์ „๋‹ฌ๋œ๋‹ค.
๋งˆ์ง€๋ง‰ ํ† ํฐ๊นŒ์ง€ ์ž…๋ ฅ์ด ์™„๋ฃŒ๋˜๋ฉด ์ „์ฒด ์ž…๋ ฅ์— ๋Œ€ํ•œ decoder์˜ attention์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

3.2 Token Classification Tasks

์ „์ฒด ๋ฌธ์„œ๋ฅผ encoder์™€ decoder์— ์ž…๋ ฅํ•œ๋‹ค. decoder์˜ top hidden state๋ฅผ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ representation์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฅผ ํ† ํฐ ๋ถ„๋ฅ˜์— ์‚ฌ์šฉํ•œ๋‹ค.

3.3 Sequence Generation Tasks

๊ธฐ์กด BERT๋Š” encoder๋งŒ์„ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— generation ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜์ง€ ๋ชปํ•˜๋Š”๋ฐ BART๋Š” autoregressive decoder๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— abstractive question answering๊ณผ summarization๊ณผ ๊ฐ™์€ sequence generation ํƒœ์Šคํฌ์— ๋ฐ”๋กœ ์ ์šฉ ํ•  ์ˆ˜ ์žˆ๋‹ค.

3.4 Machine Translation

์˜์–ด๋ฅผ ๋‹ค๋ฅธ ์–ธ์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ๊ฒƒ์ด Machine Translation ํƒœ์Šคํฌ์ด๋‹ค. BART ๋ชจ๋ธ ์ „์ฒด๋ฅผ Machine Translation์„ ์œ„ํ•œ pre-trained decoder๋กœ ์‚ฌ์šฉํ•˜๊ณ  bitext๋กœ๋ถ€ํ„ฐ ํ•™์Šต๋œ ์ƒˆ๋กœ์šด encoder๋ฅผ ์ถ”๊ฐ€ํ•ด ์ธ์ฝ”๋”-๋””์ฝ”๋”๋ฅผ fine-tuning ํ•œ๋‹ค.
โ–ถ๏ธŽ ์ƒˆ๋กœ ์ถ”๊ฐ€๋œ encoder๋Š” end-to-end๋กœ ํ•™์Šต๋˜๋ฉฐ, ์ด encoder๋ฅผ ํ•™์Šต์‹œํ‚ด์œผ๋กœ์จ ์™ธ๊ตญ์–ด ๋‹จ์–ด๋“ค์„ ์˜์–ด๋กœ mappingํ•ด BART๊ฐ€ ์™ธ๊ตญ์–ด๋ฅผ denoiseํ•  ์ˆ˜ ์žˆ๋„๋กํ•œ๋‹ค.

์ƒˆ๋กœ์šด encoder๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•
๋‘๊ฐ€์ง€์˜ ๋‹จ๊ณ„๊ฐ€ ์žˆ๋Š”๋ฐ ๋‘ ๋‹จ๊ณ„๋ณด๋ฌด cross-entropy loss๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค.

  • ์ฒซ๋ฒˆ์งธ ๋‹จ๊ณ„ : BART์˜ ๋Œ€๋ถ€๋ถ„์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ freezeํ•˜๊ณ  ๋žœ๋ค์œผ๋กœ ์ดˆ๊ธฐํ™”๋œ source encoder, BART encoder์˜ ์ฒซ๋ฒˆ์งธ ๋ ˆ์ด์–ด self-attention input projection matrix๋งŒ ํ•™์Šต์‹œํ‚จ๋‹ค.
  • ๋‘๋ฒˆ์งธ ๋‹จ๊ณ„ : ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ•™์Šต์‹œํ‚จ๋‹ค.

8. Conclusions

BART๋Š” ์†์ƒ๋œ ๋ฌธ์„œ๋ฅผ ๊ธฐ์กด ๋ฌธ์„œ๋กœ ๋งคํ•‘ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ์‚ฌ์ „ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์„ ์ด์šฉํ•œ ๋ชจ๋ธ์ด๋‹ค. BART๋Š” ๋ถ„๋ฅ˜ task์—์„œ RoBERTa์™€ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋‚ด๋ฉด์„œ๋„ generation task์—์„œ๋„ state-of-the-art ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ pre-training์„ ์œ„ํ•œ document๋ฅผ ์†์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ๋” ์กฐ์‚ฌํ•ด์•ผํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.


์ถœ์ฒ˜

profile
๋‚ด์ผ์˜ ๋‚˜๋Š” ์˜ค๋Š˜๋ณด๋‹ค ๋” ๋‚˜์•„์ง€๊ธฐ๋ฅผ :D

0๊ฐœ์˜ ๋Œ“๊ธ€