๐Ÿ“ข Attention Is All You Need

ukkikkiaiยท2024๋…„ 5์›” 13์ผ

Euron ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

๋ชฉ๋ก ๋ณด๊ธฐ
8/13

Abstract

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ƒˆ๋กœ์šด Transformer ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆ: ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋กœ ๊ตฌ์„ฑ๋œ ๋ณต์žกํ•œ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง์„ ๋Œ€์‹ ํ•  ์ˆ˜ ์žˆ๋Š” ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์ž„. ์ˆœํ™˜/ํ•ฉ์„ฑ๊ณฑ์„ ๋ฐฐ์ œํ•˜๊ณ  ์˜ค์ง ๐Ÿ“ข ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์—๋งŒ ์˜์กดํ•จ. Machine Translation ์ž‘์—…์—์„œ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ํ•ด๋‹น ๋ชจ๋ธ์ด ํ’ˆ์งˆ ๋ฉด์—์„œ ๋” ์šฐ์ˆ˜ํ•˜๊ณ , ๋ณ‘๋ ฌํ™” ๋˜ํ•œ ๊ฐ€๋Šฅํ•˜๋ฉฐ ํ›ˆ๋ จ ์‹œ๊ฐ„์ด ํฌ๊ฒŒ ์ค„์–ด๋“ฆ์„ ๋ณด์ž„. ๋ณธ ์—ฐ๊ตฌ์˜ ๋ชจ๋ธ์€ WMT 2014 ์˜์–ด-๋…์ผ์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ 28.4 BLEU ์Šค์ฝ”์–ด๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€์Œ(2.5์ผ๊ฐ„, 8๊ฐœ์˜ GPU ์‚ฌ์šฉ). ์ถ”๊ฐ€์ ์œผ๋กœ ์ œํ•œ๋œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ ์˜์–ด ๊ตฌ๋ฌธ ๋ถ„์„์—๋„ ์„ฑ๊ณต์ ์œผ๋กœ ์ž˜ ์ผ๋ฐ˜ํ™”๋จ์„ ํ™•์ธํ•จ.

1. Introduction

RNN, LSTM, ๊ฒŒ์ดํŠธ RNN์€ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ฐ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ๊ณผ ๊ฐ™์€ sequence ๋ชจ๋ธ๋ง๊ณผ ๋ณ€ํ™˜ ๋ฌธ์ œ์—์„œ ์ตœ์ฒจ๋‹จ ์ ‘๊ทผ ๋ฐฉ์‹์œผ๋กœ ํ™•๋ฆฝ๋˜์–ด ์™”์Œ. Sequence ๋ชจ๋ธ์˜ ์ธ์ฝ”๋”/๋””์ฝ”๋” ๊ตฌ์กฐ์˜ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๋…ธ๋ ฅ์€ ๊ณ„์†๋˜๊ณ  ์žˆ์Œ.

=> Sequence ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ input๊ณผ output ์‹œํ€€์Šค symbol์˜ ํฌ์ง€์…˜์— ๋”ฐ๋ผ ๊ณ„์‚ฐํ•จ. ๊ณ„์‚ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์— ์œ„์น˜๋ฅผ ์ •๋ ฌํ•˜๋ฉด, ์ด์ „์˜ hidden state hy-1 ๋ฐ ์œ„์น˜ t์˜ ์ž…๋ ฅ์— ๋”ฐ๋ผ ์ˆจ๊ฒจ์ง„ ์ƒํƒœ ht์˜ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•จ.

=> ์ตœ๊ทผ์—๋Š” factorization trick์ด๋‚˜ ์กฐ๊ฑด๋ถ€ computation์œผ๋กœ ์ƒ๋‹นํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Œ.

๐Ÿšจ ๊ทธ๋Ÿฌ๋‚˜ ๊ทผ๋ณธ์ ์ธ ์ œ์•ฝ์€ ์—ฌ์ „ํžˆ ๋‚จ์•„์žˆ์Œ.

๐Ÿ’ก Attention Mechanism์€ ์ž…๋ ฅ/์ถœ๋ ฅ sequence์˜ ๊ฑฐ๋ฆฌ์™€ ์ƒ๊ด€์—†์ด ์ข…์†์„ฑ์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋งค๋ ฅ์ ์ธ ์‹œํ€€์Šค ๋ชจ๋ธ์˜ ํ•„์ˆ˜ ์š”์†Œ๊ฐ€ ๋˜์—ˆ์Œ.

๐Ÿšจ ๊ทธ๋Ÿฌ๋‚˜ ์†Œ์ˆ˜์˜ ๊ฒฝ์šฐ๋ฅผ ์ œ์™ธํ•˜๊ณ ๋Š” ์ด๋Ÿฌํ•œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ RNN๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉ๋จ.

โœ… ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Transformer๋ฅผ ์ œ์•ˆํ•˜์—ฌ, '๋ฐ˜๋ณต'์„ ๋นผ๊ณ  ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๊ฐ„์˜ ์ „์—ญ ์ข…์†์„ฑ์„ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋Š” ์–ดํ…์…˜ ๋งค์ปค๋‹ˆ์ฆ˜์— ์˜์กดํ•จ.

=> Transformer๋Š” ํ›ˆ๋ จ๋œ ํ›„ 12์‹œ๊ฐ„๋งŒ์— 8๋Œ€์˜ GPU์—์„œ ์ตœ์ฒจ๋‹จ ๋ฒˆ์—ญ ํ’ˆ์งˆ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ!

2. Background

Sequential computation์„ ์ค„์ด๋Š” ๋ชฉํ‘œ => CNN์„ ๊ธฐ๋ณธ ๋ฒ ์ด์Šค๋กœ ํ•˜์—ฌ hidden representation์„ ๊ณ„์‚ฐํ•จ.

-> ๐Ÿšจ ConvS2S๋Š” ์„ ํ˜•์ ์œผ๋กœ, ByteNet์€ ๋กœ๊ทธ๋กœ ์ฆ๊ฐ€ํ•˜๊ฒŒ ๋˜์–ด ๋จผ ์œ„์น˜ ๊ฐ„์˜ ์ข…์†์„ฑ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ค์›€.

๐Ÿšจ Transformer์—์„œ๋Š” ์ด๋ฅผ ์ผ์ •ํ•œ ์ž‘์—… ์ˆ˜๋กœ ์ค„์˜€์œผ๋‚˜ ์ฃผ์˜๋ฅผ ๋ถ„์‚ฐ์‹œ์ผœ resolution์ด ๋–จ์–ด์ง => ๐Ÿ’ก Multi-head Attention์œผ๋กœ ์ƒ์‡„์‹œํ‚ด.

Self Attention์€ ํ•˜๋‚˜์˜ ์‹œํ€€์Šค ๋‚ด์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ์œ„์น˜๋ฅผ ๊ด€๋ จ์‹œ์ผœ ํ‘œํ˜„์„ ๊ณ„์‚ฐํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์„ฑ๊ณต์ ์œผ๋กœ ์‚ฌ์šฉ์ด ๋˜์—ˆ์Œ.

๐Ÿฑ Transformer๋Š” ์ด๋Ÿฌํ•œ Self Attention์— ์™„์ „ํžˆ ์˜์กดํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ๋ณ€ํ™˜ ๋ชจ๋ธ์ž„.

3. Model Architecture

3.1 Encoder and Decoder Stacks

๋Œ€๋ถ€๋ถ„์˜ Sequence transduction ๋ชจ๋ธ์€ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง.

=> ์ธ์ฝ”๋”๋Š” symbol representation x๋ฅผ ์—ฐ์†์ ์ธ representation z๋กœ ๋งคํ•‘ํ•จ. ์ดํ›„์— ๋””์ฝ”๋”๋Š” z๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์”ฉ ์ถœ๋ ฅ ์‹œํ€€์Šค y๋ฅผ ์ƒ์„ฑํ•จ.

  • ๊ฐ ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์€ auto regressiveํ•˜๋ฉฐ, ๋‹ค์Œ ์š”์†Œ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ๋Š” ์ด์ „์— ์ƒ์„ฑ๋œ symbol์„ ์ถ”๊ฐ€ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•จ.

Transformer๋Š” ์ด๋Ÿฌํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋”ฐ๋ฅด๋ฉฐ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ชจ๋‘์— ๋Œ€ํ•ด self-attention๊ณผ point-wise, FC layer๋ฅผ ์‚ฌ์šฉํ•จ.

๐Ÿต Auto-regressive: ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ชจ๋ธ์—์„œ ํ˜„์žฌ ์‹œ์  ์ด์ „์˜ ์ถœ๋ ฅ์ด ์ด์ „ ์‹œ์ ์˜ ์ถœ๋ ฅ์— ์˜์กดํ•˜๋Š” ํŠน์„ฑ์„ ๋งํ•จ.

Encoder

โœ… ์ธ์ฝ”๋”๋Š” N = 6๊ฐœ์˜ ๋™์ผํ•œ Layer์™€ 2๊ฐœ์˜ sublayer๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ.

1) multihead self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜
2) position-wise FC feed-forward ๋„คํŠธ์›Œํฌ

  • ๊ฐ๊ฐ์˜ sub-layer ์ฃผ์œ„์— residual connection ์—ฐ๊ฒฐ์„ ์‚ฌ์šฉํ•˜๊ณ , ์ถœ๋ ฅ์€ layer ์ •๊ทœํ™”๋ฅผ ๊ฑฐ์น˜๊ฒŒ ๋จ.

๋”ฐ๋ผ์„œ ๊ฐ sub-layer์˜ ์ถœ๋ ฅ์€ LayerNorm(x + Sublayer(x))๋กœ ๋‚˜ํƒ€๋‚˜๋ฉฐ ์ถœ๋ ฅ ์ฐจ์›์€ dmodel=512์ž„.

Decoder

โœ… ๋””์ฝ”๋”๋„ N=6๊ฐœ์˜ ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ 2๊ฐœ์˜ ํ•˜์œ„ ๋ ˆ์ด์–ด + ์ธ์ฝ”๋” ์Šคํƒ์˜ ์ถœ๋ ฅ์— ๋Œ€ํ•œ multi-head attention์„ ์ˆ˜ํ–‰ํ•˜๋Š” 3๋ฒˆ์งธ ๋ ˆ์ด์–ด

  • ์ธ์ฝ”๋”์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ residual connection, layer normalization์„ ์ˆ˜ํ–‰ํ•จ.

+) ๋””์ฝ”๋” ์Šคํƒ์˜ self-attention์˜ ํ•˜์œ„ ๋ ˆ์ด์–ด๋ฅผ ์ˆ˜์ •ํ•˜์—ฌ ์œ„์น˜๊ฐ€ '๋‹ค์Œ ์œ„์น˜'์—๋งŒ ๊ด€์‹ฌ์„ ๊ฐ€์ง€๋„๋ก ํ•จ.

๐Ÿ’ก ํ•ด๋‹น ๋งˆ์Šคํ‚น์€ ์ถœ๋ ฅ ์ž„๋ฒ ๋”ฉ์ด ํฌ์ง€์…˜ ํ•˜๋‚˜๋งŒํผ offset๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ์œ„์น˜ i์˜ ์˜ˆ์ธก์ด i๋ณด๋‹ค ์ž‘์€ ์œ„์น˜์˜ ์•Œ๋ ค์ง„ ์ถœ๋ ฅ์—๋งŒ ์˜์กดํ•˜๋„๋ก ํ•˜๊ธฐ ์œ„ํ•จ์ž„.

3.2 Attention

  • ์ฃผ์–ด์ง„ ์ฟผ๋ฆฌ, ํ‚ค-๊ฐ’ ์Œ(๋ชจ๋‘ ๋ฒกํ„ฐ ํ˜•ํƒœ)์„ ์ถœ๋ ฅ์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ Attention ํ•จ์ˆ˜๋ผ๊ณ  ํ•จ.

=> ์ถœ๋ ฅ์€ ๊ฐ ๊ฐ’์— ๊ฐ€์ค‘์น˜๋ฅผ ํ• ๋‹นํ•˜์—ฌ ๊ณ„์‚ฐ๋˜๋ฉฐ, ์ด ๊ฐ€์ค‘์น˜๋Š” ํ•ด๋‹น ํ‚ค์™€์˜ compatibility funcion์— ์˜ํ•ด ์ฟผ๋ฆฌ์™€ ๊ณ„์‚ฐ๋จ.

3.2.1 Scaled Dot-Product Attention

3.2.2 Multi-Head Attention

  • ํ•˜๋‚˜์˜ Attention ๊ธฐ๋Šฅ ๋Œ€์‹ , ์ฟผ๋ฆฌ, ํ‚ค, ๊ฐ’์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์„ ํ˜• ํˆฌ์˜ํ•˜์—ฌ ๋ณ‘๋ ฌ๋กœ Attention mechanism์„ ์ˆ˜ํ–‰ํ•œ ํ›„, ์ตœ์ข… ์ถœ๋ ฅ์„ ์–ป์Œ. ์ด๋Š” ๋ชจ๋ธ์ด ์„œ๋กœ ๋‹ค๋ฅธ ์œ„์น˜์—์„œ ๋‹ค์–‘ํ•œ ํ‘œํ˜„ ํ•˜์œ„ ๊ณต๊ฐ„์˜ ์ •๋ณด๋ฅผ ๊ณต๋™์œผ๋กœ ์ฃผ๋ชฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•จ.
    ๐Ÿ“Œ Single head Attention์—์„œ๋Š” ํ‰๊ท ํ™”๊ฐ€ ์ด๋Ÿฌํ•œ ๊ธฐ๋Šฅ์„ ๋ฐฉํ•ดํ•จ.

3.3 Position-wise Feed-Forward Networks

โœ… ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”์˜ ๊ฐ ๋ ˆ์ด์–ด๋Š” ๊ฐ๊ฐ์˜ ์œ„์น˜์— ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋˜๋Š” FC feedforward ๋„คํŠธ์›Œํฌ๋ฅผ ํฌํ•จ

  • ๋‘ ๊ฐœ์˜ ์„ ํ˜• ๋ณ€ํ™˜๊ณผ ๊ทธ ์‚ฌ์ด์˜ ReLU ํ™œ์„ฑํ™”๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์œ„์น˜๋งˆ๋‹ค ๋™์ผํ•˜์ง€๋งŒ ๋ ˆ์ด์–ด๋งˆ๋‹ค ๋‹ค๋ฅธ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉ

=> ์ปค๋„ ํฌ๊ธฐ 1์ธ ๋‘ ๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ์œผ๋กœ ์„ค๋ช… ๊ฐ€๋Šฅ (์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ์ฐจ์›์€ 512์ด๊ณ , ๋‚ด๋ถ€ ๋ ˆ์ด์–ด์˜ ์ฐจ์›์€ 2048)

3.4 Embeddings and Softmax

โœ… ๋‹ค๋ฅธ ์‹œํ€€์Šค ๋ณ€ํ™˜ ๋ชจ๋ธ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ž…๋ ฅ ํ† ํฐ๊ณผ ์ถœ๋ ฅ ํ† ํฐ์„ dmodel ์ฐจ์›์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉ

  • ๋””์ฝ”๋” ์ถœ๋ ฅ์„ ํ† ํฐ ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต๋œ ์„ ํ˜• ๋ณ€ํ™˜๊ณผ ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋„ ์‚ฌ์šฉ

=> ๋ณธ ๋ชจ๋ธ์—์„œ๋Š” ๋‘ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด์™€ ์†Œํ”„ํŠธ๋งฅ์Šค ์ „ ์„ ํ˜• ๋ณ€ํ™˜ ๊ฐ„์— ๋™์ผํ•œ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ๊ณต์œ  + ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด์—์„œ๋Š” ์ด ๊ฐ€์ค‘์น˜๋ฅผ ๋ฃจํŠธdmodel๋กœ ๊ณฑํ•จ

3.5 Positional Encoding

โœ… ๋ณธ ๋ชจ๋ธ์€ ์ˆœํ™˜์ด๋‚˜ ํ•ฉ์„ฑ๊ณฑ์„ ํฌํ•จํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์‹œํ€€์Šค์˜ ์ˆœ์„œ๋ฅผ ํ™œ์šฉํ•˜๋ ค๋ฉด ํ† ํฐ์˜ ์ƒ๋Œ€์  ๋˜๋Š” ์ ˆ๋Œ€์  ์œ„์น˜ ์ •๋ณด๋ฅผ ์ฃผ์ž…ํ•ด์•ผ ํ•จ!

  • ์ด๋ฅผ ์œ„ํ•ด ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ์Šคํƒ์˜ ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์— "์œ„์น˜ ์ธ์ฝ”๋”ฉ"์„ ์ถ”๊ฐ€

=> ์ž„๋ฒ ๋”ฉ๊ณผ ๋™์ผํ•œ ์ฐจ์› dmodel์„ ๊ฐ€์ง€๋ฉฐ, ๋‹ค์–‘ํ•œ ์ฃผํŒŒ์ˆ˜์˜ ์‚ฌ์ธ ๋ฐ ์ฝ”์‚ฌ์ธ ํ•จ์ˆ˜๋กœ ๊ตฌ์„ฑ๋จ

  • ๊ฐ ์ฐจ์›์€ ์‚ฌ์ธํŒŒ์— ๋Œ€์‘ํ•˜๋ฉฐ, ํŒŒ์žฅ์€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ => ๋ชจ๋ธ์ด ์ƒ๋Œ€์  ์œ„์น˜๋ฅผ ์‰ฝ๊ฒŒ ํ•™์Šตํ•˜๋„๋ก ๋„์›€.

+) ํ•™์Šต๋œ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ๋„ ์‹คํ—˜ํ–ˆ์ง€๋งŒ ๊ฒฐ๊ณผ๋Š” ๊ฑฐ์˜ ๋™์ผํ–ˆ์Œ.

๐Ÿ’ก ์‚ฌ์ธํŒŒ ๋ฒ„์ „์„ ์„ ํƒํ•œ ์ด์œ ๋Š” ๋ชจ๋ธ์ด ํ›ˆ๋ จ ์ค‘ ๋งˆ์ฃผํ•œ ๊ธธ์ด๋ณด๋‹ค ๋” ๊ธด ์‹œํ€€์Šค์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ๊ฐ€์ •ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž„.

4. Why Self-Attention

โœ… Self attention ์ธต์„ ์ผ๋ฐ˜์ ์ธ ์ˆœํ™˜ ๋ฐ ํ•ฉ์„ฑ๊ณฑ ์ธต๊ณผ ๋น„๊ตํ•˜์—ฌ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ธก๋ฉด์„ ํ‰๊ฐ€ํ•จ.

1) ์ธต๋‹น ์ด ๊ณ„์‚ฐ ๋ณต์žก๋„

2) ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ„์‚ฐ๋Ÿ‰

  • ํ•„์š”ํ•œ ์ตœ์†Œ ์ˆœ์ฐจ ์—ฐ์‚ฐ ์ˆ˜๋กœ ๊ณ„์‚ฐํ•จ.

3) ๋„คํŠธ์›Œํฌ์—์„œ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ ๊ฐ„์˜ ๊ฒฝ๋กœ ๊ธธ์ด

  • ์‹œํ€€์Šค ๋ณ€ํ™˜ ์ž‘์—…์—์„œ ์ค‘์š”ํ•œ ์š”์†Œ๋กœ, ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์‹œํ€€์Šค ๊ฐ„์˜ ๊ฒฝ๋กœ๊ฐ€ ์งง์„์ˆ˜๋ก ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ํ•™์Šตํ•˜๊ธฐ ์‰ฌ์›€.

๐Ÿ’ก Self attention ์ธต์€ ์ผ์ •ํ•œ ์ˆ˜์˜ ์ˆœ์ฐจ ์—ฐ์‚ฐ์œผ๋กœ ๋ชจ๋“  ์œ„์น˜๋ฅผ ์—ฐ๊ฒฐํ•˜๋Š” ๋ฐ˜๋ฉด, ์ˆœํ™˜์ธต์€ O(n) ์ˆœ์ฐจ ์—ฐ์‚ฐ์„ ํ•„์š”๋กœ ํ•จ.

=> ๊ณ„์‚ฐ ๋ณต์žก๋„ ์ธก๋ฉด์—์„œ, ์‹œํ€€์Šค ๊ธธ์ด n์ด ํ‘œํ˜„ ์ฐจ์› d๋ณด๋‹ค ์ž‘์„ ๋•Œ self attention ์ธต์ด ๋” ๋น ๋ฆ„. ๊ธด ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฃฐ ๋•Œ๋Š” self attention์„ ์ œํ•œํ•˜์—ฌ ์ตœ๋Œ€ ๊ฒฝ๋กœ ๊ธธ์ด๋ฅผ O(n/r)๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Œ.

๐Ÿ“Œ Self attention์€ ๋ชจ๋ธ์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋˜ํ•œ ๋†’์ผ ์ˆ˜ ์žˆ์Œ!

  • self attention ๋ถ„ํฌ๋ฅผ ๊ฒ€์‚ฌํ•œ ๊ฒฐ๊ณผ, ๊ฐœ๋ณ„ attention ํ—ค๋“œ๊ฐ€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ ๋ฌธ์žฅ์˜ ๊ตฌ๋ฌธ ๋ฐ ์˜๋ฏธ ๊ตฌ์กฐ์™€ ๊ด€๋ จ๋œ ํ–‰๋™์„ ๋ณด์˜€์Œ.

5. Training

Abstract์—์„œ ์†Œ๊ฐœํ•œ ๋ฐ์ดํ„ฐ์…‹์„ 8๊ฐœ์˜ GPU, Adam Optimizer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จํ•จ.

6. Results

6.1 Machine Translation

โœ… WMT 2014 ์˜์–ด-๋…์ผ์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ, ํฐ Transformer ๋ชจ๋ธ์€ BLEU ์ ์ˆ˜ 28.4๋กœ ์ด์ „ ์ตœ๊ณ  ๋ชจ๋ธ๋“ค์„ 2.0 BLEU ์ด์ƒ ์ดˆ๊ณผํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ๊ธฐ๋ก์„ ์„ธ์›€.

6.2 Model Variations

๋ชจ๋ธ์˜ variation์„ ์ธก์ •ํ•˜๊ธฐ
์œ„ํ•ด ์•„๋ž˜ ํ‘œ์™€ ๊ฐ™์€ ์‹คํ—˜์„ ์ง„ํ–‰ํ•จ.

๐Ÿ’กํ—ค๋“œ ์ˆ˜์™€ Attention ํ‚ค ๋ฐ ๊ฐ’ ์ฐจ์›์„ ๋ณ€๊ฒฝํ•œ ๊ฒฐ๊ณผ

  • ํ‚ค ํฌ๊ธฐ dk๋ฅผ ์ค„์ด๋ฉด ๋ชจ๋ธ ํ’ˆ์งˆ์ด ๋–จ์–ด์ง

  • ๋” ํฐ ๋ชจ๋ธ์ด ๋” ์ข‹์•˜๊ณ , ๋“œ๋กญ์•„์›ƒ์ด ๊ณผ์ ํ•ฉ์„ ํ”ผํ•˜๋Š” ๋ฐ ๋งค์šฐ ์œ ์šฉํ•จ์„ ํ™•์ธ

+) ์‚ฌ์ธํŒŒ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ํ•™์Šต๋œ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๊ต์ฒดํ–ˆ์„ ๋•Œ ๊ธฐ๋ณธ ๋ชจ๋ธ๊ณผ ๊ฑฐ์˜ ๋™์ผํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž„.

7. Conclusion

๋ตค ์—ฐ๊ตฌ์—์„œ๋Š” ์™„์ „ํžˆ attention์— ๊ธฐ๋ฐ˜ํ•œ ์ฒซ ๋ฒˆ์งธ ์‹œํ€€์Šค ๋ณ€ํ™˜ ๋ชจ๋ธ์ธ Transformer๋ฅผ ์†Œ๊ฐœํ•จ.

Transformer๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ์•„ํ‚คํ…์ฒ˜์—์„œ ํ”ํžˆ ์‚ฌ์šฉ๋˜๋Š” ์ˆœํ™˜์ธต์„ ๋‹ค์ค‘ ํ—ค๋“œ self-attention์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋ฒˆ์—ญ ์ž‘์—…์—์„œ Transformer๋Š” ์ˆœํ™˜์ธต์ด๋‚˜ ํ•ฉ์„ฑ๊ณฑ์ธต ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ํ›ˆ๋ จ๋จ.

์˜์–ด-๋…์ผ์–ด ์ž‘์—…์—์„œ๋Š” ์ด์ „์˜ ๋ชจ๋“  ๋ณด๊ณ ๋œ ์•™์ƒ๋ธ” ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•จ.

Transformer๋ฅผ ํ™•์žฅํ•˜๊ณ , ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค์™€ ๊ฐ™์€ ํฐ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์—ฐ๊ตฌํ•  ๊ฒƒ์ž„.

profile
์œ ์ •๋ฏผ

0๊ฐœ์˜ ๋Œ“๊ธ€