Keyword
Self-Attention
Scaled Dot-Product Attention
Multi-Head Attention
Positional Encoding
Abstract
- ์ด์ ์ํ์ค ๋ณํ ๋ชจ๋ธ์ RNN์ด๋ ์ธ์ฝ๋-๋์ฝ๋ ํฌํจํ CNN ๊ธฐ๋ฐ
- ํ๊ณ ๋ง์ ex) ๋ณ๋ ฌํ X, Sequence ๊ธธ์ด์ง๋ฉด ์ฒ๋ฆฌ ํ๋ค์ด
- ๋ณธ ๋
ผ๋ฌธ์ ์ค๋ก์ง Attention ๊ธฐ๋ฐ
- ๋ณ๋ ฌํ ๋ฐ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฐ์ด๋จ
Introduction
(Abstract์ ๋์จ ๋ด์ฉ ๋ณด์ถฉ ์ค๋ช
)
- ๊ธฐ์กด RNN, LSTM, GRU ๋ฑ์ด Sequence modeling์์ SOTA์์ง๋ง ์์ ๋งํ ๋ฌธ์ ์์ด
- ๋ณ๋ ฌํ ์๋ผ โ ๊ธด sequence์ ์น๋ช
์ โ ๋ฆฌ์์ค ๋ง์ด ๋ค์ด
Background
Self-Attention
- ํ๋์ ์
๋ ฅ Sequence ๋ด์์ ๊ฐ ๋จ์ด ๊ฐ์ ์๊ด ๊ด๊ณ๋ฅผ ํ์
ํ๋ ๋ฐ ์ฌ์ฉํ๋ค
Model Architecture
๋ชจ๋ธ ์ ์ฒด ๊ตฌ์กฐ
- ์ข์ ์ฑ๋ฅ ๊ฐ์ง Sequence model์ ๋๋ถ๋ถ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ, Transformer๋ ๋ง์ฐฌ๊ฐ์ง
- self-attention๊ณผ fully connected layer๋ก ์ด๋ฃจ์ด์ง
Encoder
- ๋ณธ ๋
ผ๋ฌธ์ 6๊ฐ layer ์์
- ๊ฐ Layer๋ 2๊ฐ์ sub-layer๋ก ๊ตฌ์ฑ
- multi-head + feed forward
- Reisdual Connection ์ฌ์ฉ
- โต ๊ฐ sub layer ์ถ๋ ฅ์ด LayerNorm(x+Sublayer(x))
Decoder
- ์ธ์ฝ๋์ ๊ฑฐ์ ์ ์ฌ, ๋์ผํ๊ฒ 6๊ฐ ์์
- ๋จ ๊ฐ layer๊ฐ 3๊ฐ์ layer๋ก ๊ตฌ์ฑ๋จ
- multi-head + multi-head + feed forward
- Residual Connection ์ฌ์ฉ
- Masking
- ๊ฐ ํฌ์ง์
๋ณด๋ค ๋ค์ ์๋ ๋จ์ด์ ๋ํด ์์ง ๋ชปํ๊ฒ
- Query : ๋ฌผ์ด๋ณด๋ ์ฃผ์ฒด
- Key : ๋์
- Value :
- Query๊ฐ Key์ ๋ํด ์ง๋ฌธํ๋ค