๋ณธ ๋ ผ๋ฌธ์์๋ ์๋ก์ด Transformer ๊ตฌ์กฐ๋ฅผ ์ ์: ์ธ์ฝ๋์ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋ ๋ณต์กํ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ๋์ ํ ์ ์๋ ๋คํธ์ํฌ ๊ตฌ์กฐ์. ์ํ/ํฉ์ฑ๊ณฑ์ ๋ฐฐ์ ํ๊ณ ์ค์ง ๐ข ์ดํ ์ ๋ฉ์ปค๋์ฆ์๋ง ์์กดํจ. Machine Translation ์์ ์์์ ์คํ ๊ฒฐ๊ณผ๋ ํด๋น ๋ชจ๋ธ์ด ํ์ง ๋ฉด์์ ๋ ์ฐ์ํ๊ณ , ๋ณ๋ ฌํ ๋ํ ๊ฐ๋ฅํ๋ฉฐ ํ๋ จ ์๊ฐ์ด ํฌ๊ฒ ์ค์ด๋ฆ์ ๋ณด์. ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ WMT 2014 ์์ด-๋ ์ผ์ด ๋ฒ์ญ ์์ ์์ 28.4 BLEU ์ค์ฝ์ด๋ฅผ ๋ฌ์ฑํ์์(2.5์ผ๊ฐ, 8๊ฐ์ GPU ์ฌ์ฉ). ์ถ๊ฐ์ ์ผ๋ก ์ ํ๋ ํ๋ จ ๋ฐ์ดํฐ๋ก ์์ด ๊ตฌ๋ฌธ ๋ถ์์๋ ์ฑ๊ณต์ ์ผ๋ก ์ ์ผ๋ฐํ๋จ์ ํ์ธํจ.
RNN, LSTM, ๊ฒ์ดํธ RNN์ ์ธ์ด ๋ชจ๋ธ๋ง ๋ฐ ๊ธฐ๊ณ ๋ฒ์ญ๊ณผ ๊ฐ์ sequence ๋ชจ๋ธ๋ง๊ณผ ๋ณํ ๋ฌธ์ ์์ ์ต์ฒจ๋จ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ํ๋ฆฝ๋์ด ์์. Sequence ๋ชจ๋ธ์ ์ธ์ฝ๋/๋์ฝ๋ ๊ตฌ์กฐ์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๋ ธ๋ ฅ์ ๊ณ์๋๊ณ ์์.
=> Sequence ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก input๊ณผ output ์ํ์ค symbol์ ํฌ์ง์ ์ ๋ฐ๋ผ ๊ณ์ฐํจ. ๊ณ์ฐ ์๊ฐ ๋จ๊ณ์ ์์น๋ฅผ ์ ๋ ฌํ๋ฉด, ์ด์ ์ hidden state hy-1 ๋ฐ ์์น t์ ์ ๋ ฅ์ ๋ฐ๋ผ ์จ๊ฒจ์ง ์ํ ht์ ์ํ์ค๋ฅผ ์์ฑํจ.
=> ์ต๊ทผ์๋ factorization trick์ด๋ ์กฐ๊ฑด๋ถ computation์ผ๋ก ์๋นํ ์ฑ๊ณผ๋ฅผ ๋ณด์์.
๐จ ๊ทธ๋ฌ๋ ๊ทผ๋ณธ์ ์ธ ์ ์ฝ์ ์ฌ์ ํ ๋จ์์์.
๐ก Attention Mechanism์ ์ ๋ ฅ/์ถ๋ ฅ sequence์ ๊ฑฐ๋ฆฌ์ ์๊ด์์ด ์ข ์์ฑ์ ๋ชจ๋ธ๋งํ ์ ์๋๋ก ํ์ฌ ๋ค์ํ ์์ ์์ ๋งค๋ ฅ์ ์ธ ์ํ์ค ๋ชจ๋ธ์ ํ์ ์์๊ฐ ๋์์.
๐จ ๊ทธ๋ฌ๋ ์์์ ๊ฒฝ์ฐ๋ฅผ ์ ์ธํ๊ณ ๋ ์ด๋ฌํ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ RNN๊ณผ ํจ๊ป ์ฌ์ฉ๋จ.
โ ๋ณธ ์ฐ๊ตฌ์์๋ Transformer๋ฅผ ์ ์ํ์ฌ, '๋ฐ๋ณต'์ ๋นผ๊ณ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๊ฐ์ ์ ์ญ ์ข ์์ฑ์ ๊ทธ๋ฆด ์ ์๋ ์ดํ ์ ๋งค์ปค๋์ฆ์ ์์กดํจ.
=> Transformer๋ ํ๋ จ๋ ํ 12์๊ฐ๋ง์ 8๋์ GPU์์ ์ต์ฒจ๋จ ๋ฒ์ญ ํ์ง์ ๋๋ฌํ ์ ์๋ ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ ๋ชจ๋ธ!
Sequential computation์ ์ค์ด๋ ๋ชฉํ => CNN์ ๊ธฐ๋ณธ ๋ฒ ์ด์ค๋ก ํ์ฌ hidden representation์ ๊ณ์ฐํจ.
-> ๐จ ConvS2S๋ ์ ํ์ ์ผ๋ก, ByteNet์ ๋ก๊ทธ๋ก ์ฆ๊ฐํ๊ฒ ๋์ด ๋จผ ์์น ๊ฐ์ ์ข ์์ฑ์ ํ์ตํ๋ ๊ฒ์ด ์ด๋ ค์.
๐จ Transformer์์๋ ์ด๋ฅผ ์ผ์ ํ ์์ ์๋ก ์ค์์ผ๋ ์ฃผ์๋ฅผ ๋ถ์ฐ์์ผ resolution์ด ๋จ์ด์ง => ๐ก Multi-head Attention์ผ๋ก ์์์ํด.
Self Attention์ ํ๋์ ์ํ์ค ๋ด์์ ์๋ก ๋ค๋ฅธ ์์น๋ฅผ ๊ด๋ จ์์ผ ํํ์ ๊ณ์ฐํ์ฌ ๋ค์ํ ์์ ์์ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ์ด ๋์์.
๐ฑ Transformer๋ ์ด๋ฌํ Self Attention์ ์์ ํ ์์กดํ๋ ์ฒซ ๋ฒ์งธ ๋ณํ ๋ชจ๋ธ์.

๋๋ถ๋ถ์ Sequence transduction ๋ชจ๋ธ์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง.
=> ์ธ์ฝ๋๋ symbol representation x๋ฅผ ์ฐ์์ ์ธ representation z๋ก ๋งคํํจ. ์ดํ์ ๋์ฝ๋๋ z๋ฅผ ์ฌ์ฉํ์ฌ ํ ๋ฒ์ ํ๋์ฉ ์ถ๋ ฅ ์ํ์ค y๋ฅผ ์์ฑํจ.
Transformer๋ ์ด๋ฌํ ์ํคํ ์ฒ๋ฅผ ๋ฐ๋ฅด๋ฉฐ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋์ ๋ํด self-attention๊ณผ point-wise, FC layer๋ฅผ ์ฌ์ฉํจ.
๐ต Auto-regressive: ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ์์ ํ์ฌ ์์ ์ด์ ์ ์ถ๋ ฅ์ด ์ด์ ์์ ์ ์ถ๋ ฅ์ ์์กดํ๋ ํน์ฑ์ ๋งํจ.
โ ์ธ์ฝ๋๋ N = 6๊ฐ์ ๋์ผํ Layer์ 2๊ฐ์ sublayer๋ก ๊ตฌ์ฑ๋์ด ์์.
1) multihead self-attention ๋ฉ์ปค๋์ฆ
2) position-wise FC feed-forward ๋คํธ์ํฌ
๋ฐ๋ผ์ ๊ฐ sub-layer์ ์ถ๋ ฅ์ LayerNorm(x + Sublayer(x))๋ก ๋ํ๋๋ฉฐ ์ถ๋ ฅ ์ฐจ์์ dmodel=512์.
โ ๋์ฝ๋๋ N=6๊ฐ์ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ 2๊ฐ์ ํ์ ๋ ์ด์ด + ์ธ์ฝ๋ ์คํ์ ์ถ๋ ฅ์ ๋ํ multi-head attention์ ์ํํ๋ 3๋ฒ์งธ ๋ ์ด์ด
+) ๋์ฝ๋ ์คํ์ self-attention์ ํ์ ๋ ์ด์ด๋ฅผ ์์ ํ์ฌ ์์น๊ฐ '๋ค์ ์์น'์๋ง ๊ด์ฌ์ ๊ฐ์ง๋๋ก ํจ.
๐ก ํด๋น ๋ง์คํน์ ์ถ๋ ฅ ์๋ฒ ๋ฉ์ด ํฌ์ง์ ํ๋๋งํผ offset๋์ด ์์ผ๋ฏ๋ก ์์น i์ ์์ธก์ด i๋ณด๋ค ์์ ์์น์ ์๋ ค์ง ์ถ๋ ฅ์๋ง ์์กดํ๋๋ก ํ๊ธฐ ์ํจ์.

=> ์ถ๋ ฅ์ ๊ฐ ๊ฐ์ ๊ฐ์ค์น๋ฅผ ํ ๋นํ์ฌ ๊ณ์ฐ๋๋ฉฐ, ์ด ๊ฐ์ค์น๋ ํด๋น ํค์์ compatibility funcion์ ์ํด ์ฟผ๋ฆฌ์ ๊ณ์ฐ๋จ.


โ ๋ณธ ์ฐ๊ตฌ์์๋ ์ธ์ฝ๋์ ๋์ฝ๋์ ๊ฐ ๋ ์ด์ด๋ ๊ฐ๊ฐ์ ์์น์ ๋์ผํ๊ฒ ์ ์ฉ๋๋ FC feedforward ๋คํธ์ํฌ๋ฅผ ํฌํจ
=> ์ปค๋ ํฌ๊ธฐ 1์ธ ๋ ๊ฐ์ ํฉ์ฑ๊ณฑ์ผ๋ก ์ค๋ช ๊ฐ๋ฅ (์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฐจ์์ 512์ด๊ณ , ๋ด๋ถ ๋ ์ด์ด์ ์ฐจ์์ 2048)
โ ๋ค๋ฅธ ์ํ์ค ๋ณํ ๋ชจ๋ธ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ ๋ ฅ ํ ํฐ๊ณผ ์ถ๋ ฅ ํ ํฐ์ dmodel ์ฐจ์์ ๋ฒกํฐ๋ก ๋ณํํ๊ธฐ ์ํด ํ์ต๋ ์๋ฒ ๋ฉ์ ์ฌ์ฉ
=> ๋ณธ ๋ชจ๋ธ์์๋ ๋ ์๋ฒ ๋ฉ ๋ ์ด์ด์ ์ํํธ๋งฅ์ค ์ ์ ํ ๋ณํ ๊ฐ์ ๋์ผํ ๊ฐ์ค์น ํ๋ ฌ์ ๊ณต์ + ์๋ฒ ๋ฉ ๋ ์ด์ด์์๋ ์ด ๊ฐ์ค์น๋ฅผ ๋ฃจํธdmodel๋ก ๊ณฑํจ

โ ๋ณธ ๋ชจ๋ธ์ ์ํ์ด๋ ํฉ์ฑ๊ณฑ์ ํฌํจํ์ง ์๊ธฐ ๋๋ฌธ์ ์ํ์ค์ ์์๋ฅผ ํ์ฉํ๋ ค๋ฉด ํ ํฐ์ ์๋์ ๋๋ ์ ๋์ ์์น ์ ๋ณด๋ฅผ ์ฃผ์ ํด์ผ ํจ!

=> ์๋ฒ ๋ฉ๊ณผ ๋์ผํ ์ฐจ์ dmodel์ ๊ฐ์ง๋ฉฐ, ๋ค์ํ ์ฃผํ์์ ์ฌ์ธ ๋ฐ ์ฝ์ฌ์ธ ํจ์๋ก ๊ตฌ์ฑ๋จ
+) ํ์ต๋ ์์น ์๋ฒ ๋ฉ๋ ์คํํ์ง๋ง ๊ฒฐ๊ณผ๋ ๊ฑฐ์ ๋์ผํ์.
๐ก ์ฌ์ธํ ๋ฒ์ ์ ์ ํํ ์ด์ ๋ ๋ชจ๋ธ์ด ํ๋ จ ์ค ๋ง์ฃผํ ๊ธธ์ด๋ณด๋ค ๋ ๊ธด ์ํ์ค์ ๋ํด ์ผ๋ฐํํ ์ ์์ ๊ฒ์ด๋ผ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์.
โ Self attention ์ธต์ ์ผ๋ฐ์ ์ธ ์ํ ๋ฐ ํฉ์ฑ๊ณฑ ์ธต๊ณผ ๋น๊ตํ์ฌ ์ฌ๋ฌ ๊ฐ์ง ์ธก๋ฉด์ ํ๊ฐํจ.
1) ์ธต๋น ์ด ๊ณ์ฐ ๋ณต์ก๋
2) ๋ณ๋ ฌํํ ์ ์๋ ๊ณ์ฐ๋
3) ๋คํธ์ํฌ์์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๊ฐ์ ๊ฒฝ๋ก ๊ธธ์ด
๐ก Self attention ์ธต์ ์ผ์ ํ ์์ ์์ฐจ ์ฐ์ฐ์ผ๋ก ๋ชจ๋ ์์น๋ฅผ ์ฐ๊ฒฐํ๋ ๋ฐ๋ฉด, ์ํ์ธต์ O(n) ์์ฐจ ์ฐ์ฐ์ ํ์๋ก ํจ.
=> ๊ณ์ฐ ๋ณต์ก๋ ์ธก๋ฉด์์, ์ํ์ค ๊ธธ์ด n์ด ํํ ์ฐจ์ d๋ณด๋ค ์์ ๋ self attention ์ธต์ด ๋ ๋น ๋ฆ. ๊ธด ์ํ์ค๋ฅผ ๋ค๋ฃฐ ๋๋ self attention์ ์ ํํ์ฌ ์ต๋ ๊ฒฝ๋ก ๊ธธ์ด๋ฅผ O(n/r)๋ก ์ค์ผ ์ ์์.
๐ Self attention์ ๋ชจ๋ธ์ ํด์ ๊ฐ๋ฅ์ฑ ๋ํ ๋์ผ ์ ์์!
Abstract์์ ์๊ฐํ ๋ฐ์ดํฐ์ ์ 8๊ฐ์ GPU, Adam Optimizer๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จํจ.

โ WMT 2014 ์์ด-๋ ์ผ์ด ๋ฒ์ญ ์์ ์์, ํฐ Transformer ๋ชจ๋ธ์ BLEU ์ ์ 28.4๋ก ์ด์ ์ต๊ณ ๋ชจ๋ธ๋ค์ 2.0 BLEU ์ด์ ์ด๊ณผํ์ฌ ์๋ก์ด ์ต๊ณ ๊ธฐ๋ก์ ์ธ์.
๋ชจ๋ธ์ variation์ ์ธก์ ํ๊ธฐ
์ํด ์๋ ํ์ ๊ฐ์ ์คํ์ ์งํํจ.

๐กํค๋ ์์ Attention ํค ๋ฐ ๊ฐ ์ฐจ์์ ๋ณ๊ฒฝํ ๊ฒฐ๊ณผ
ํค ํฌ๊ธฐ dk๋ฅผ ์ค์ด๋ฉด ๋ชจ๋ธ ํ์ง์ด ๋จ์ด์ง
๋ ํฐ ๋ชจ๋ธ์ด ๋ ์ข์๊ณ , ๋๋กญ์์์ด ๊ณผ์ ํฉ์ ํผํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉํจ์ ํ์ธ
+) ์ฌ์ธํ ์์น ์ธ์ฝ๋ฉ์ ํ์ต๋ ์์น ์๋ฒ ๋ฉ์ผ๋ก ๊ต์ฒดํ์ ๋ ๊ธฐ๋ณธ ๋ชจ๋ธ๊ณผ ๊ฑฐ์ ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์.
๋ตค ์ฐ๊ตฌ์์๋ ์์ ํ attention์ ๊ธฐ๋ฐํ ์ฒซ ๋ฒ์งธ ์ํ์ค ๋ณํ ๋ชจ๋ธ์ธ Transformer๋ฅผ ์๊ฐํจ.
Transformer๋ ์ธ์ฝ๋-๋์ฝ๋ ์ํคํ ์ฒ์์ ํํ ์ฌ์ฉ๋๋ ์ํ์ธต์ ๋ค์ค ํค๋ self-attention์ผ๋ก ๋์ฒดํ์ฌ ๋ฒ์ญ ์์ ์์ Transformer๋ ์ํ์ธต์ด๋ ํฉ์ฑ๊ณฑ์ธต ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ๋ จ๋จ.
์์ด-๋ ์ผ์ด ์์ ์์๋ ์ด์ ์ ๋ชจ๋ ๋ณด๊ณ ๋ ์์๋ธ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํจ.
Transformer๋ฅผ ํ์ฅํ๊ณ , ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค์ ๊ฐ์ ํฐ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด attention ๋ฉ์ปค๋์ฆ์ ์ฐ๊ตฌํ ๊ฒ์.