- ์์ฐ์ด ์ฒ๋ฆฌ(NLP)๋ ์ค๋ ์๊ฐ๋์ ์ํ์ ๊ฒฝ๋ง(RNN, LSTM)์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ ํจ
- ์ด๋ฌํ ๋ชจ๋ธ๋ค์ (1) ๊ธด ๋ฌธ์ฅ์์ ์ ๋ณด๋ฅผ ์์ด๋ฒ๋ฆฌ๊ณ (Long-Term Dependency Problem), (2) ๋ณ๋ ฌ ์ฐ์ฐ์ด ์ด๋ ต๋ค๋ ๋จ์ ์กด์ฌ
- 2017๋
, Google์์ "Attention is All You Need"๊ฐ ๋์ด
- ์ด ๋
ผ๋ฌธ์ Self-Attention์ ๊ธฐ๋ฐ์ผ๋ก ํ Transformer ๋ชจ๋ธ์ ์ ์ํ๋ฉด์, RNN ์์ด๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ์ฆ๋ช
ํจ
๐ก๋
ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ:
- ๊ธฐ์กด RNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ํ์ต ์๋๊ฐ ํจ์ฌ ๋น ๋ฆ
- ๋ณ๋ ฌ ์ฐ์ฐ์ด ๊ฐ๋ฅํด ๋๊ท๋ชจ ๋ฐ์ดํฐ์์๋ ํจ์จ์ ์ผ๋ก ๋์
- ๋ฒ์ญ ์ฑ๋ฅ์์ ๊ธฐ์กด ๋ชจ๋ธ์ ๋ฐ์ด๋์
- ์ฆ, "Attention๋ง์ผ๋ก ์ถฉ๋ถํ๋ค" ๋ผ๋ ๋
ผ๋ฌธ

๐๏ธํต์ฌ ๊ฐ๋
1. Self-Attention
- Transformer์ ํต์ฌ์ Self-Attention ๋ฉ์ปค๋์ฆ
- ๊ธฐ์กด RNN ๋ชจ๋ธ์ ๋จ์ด๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌํ์ง๋ง, Self-Attention์ ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ํ๋ฒ์ ๋ณด๊ณ ๋จ์ด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์
- ์ฆ, ๋ฌธ์ฅ์ ๋ชจ๋ ๋จ์ด๊ฐ ์๋ก๋ฅผ ์ฐธ์กฐํ ์ ์๋๋ก ๋ง๋๋ ๊ฒ
โ
Self-Attention์ ์๋ฆฌ:
- ๊ฐ ๋จ์ด๋ ๋ฌธ์ฅ ๋ด ๋จ์ด๋ค๊ณผ ์ผ๋ง๋ ๊ด๋ จ์ด ์๋์ง(๊ฐ์ค์น)๋ฅผ ๊ณ์ฐ
- ์ด๋ฅผ ์ํด Query(Q), Key(K), Value(V) ์ธ๊ฐ์ง ๋ฒกํฐ๋ฅผ ์ฌ์ฉ
- Q, K, V๋ ๊ฐ์ ์
๋ ฅ ๋ฐ์ดํฐ์์ ์์ฑํ์ง๋ง, ๊ฐ๊ธฐ ๋ค๋ฅธ ์ญํ ์ ํจ
- ๊ฐ์ ์
๋ ฅ์์๋ง ๋์ค์ง๋ง, ๋ค๋ฅธ ๊ฐ์ค์น ํ๋ ฌ์ ํตํด ๋ณํ๋๊ธฐ ๋๋ฌธ์ ๊ฐ๊ธฐ ๋ค๋ฅธ ์ญํ ์ ํจ

- Query(Q): ํ์ฌ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋จ์ด๋ฅผ ์ฐพ์ ๋ ์ฌ์ฉํ๋ ๋ฒกํฐ
- Key(K): ๋ค๋ฅธ ๋จ์ด๋ค์ด ํ์ฌ ๋จ์ด๋ฅผ ์ฐพ์ ๋ ์ฌ์ฉํ๋ ๋ฒกํฐ
- Value(V): ๋จ์ด๊ฐ ์ค์ ๋ก ๊ฐ์ง๊ณ ์๋ ์๋ฏธ ์ ๋ณด๋ฅผ ๋ด๋ ๋ฒกํฐ
- ์์

QK^T
: Query์ Key ๋ด์ ์ ๊ตฌํด ๊ฐ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋จ์ด์ ์ผ๋ง๋ ๊ด๋ จ ์๋์ง ๊ณ์ฐ
softmax
: ๊ฐ์ค์น๋ฅผ ํ๋ฅ ๊ฐ์ผ๋ก ๋ณํ
V
: ๊ฐ์ค์น๋ฅผ ์ ์ฉํ ์ต์ข
๊ฐ
- RNN ์์ด๋ ๋ฌธ๋งฅ์ ๋ฐ์ํ ๋จ์ดํํ์ ๋ง๋ค ์ ์์
2. Multi-Head Attention
- ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ ๊ฐ์ง Attention์ผ๋ก๋ง ๋ณด๋ฉด ์ ๋ณด๊ฐ ๋ถ์กฑํ์ฌ Multi-Head Attention์ ๋์
ํจ
- Self-Attention์ ์ฌ๋ฌ ๊ฐ ์ ์ฉํด ๋ค์ํ ๊ด์ ์์ ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ์ต
- ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ ํ๋ถํ๊ฒ ํํํ ์ ์์
- ์ด๋ ๊ฒ ํ๋ฉด, ๊ฐ์ ๋ฌธ์ฅ์ด๋ผ๋ ๋ค์ํ ์ฐจ์์์ ์๋ฏธ๋ฅผ ํ์
ํ ์ ์์
3. Positional Encoding
- Self-Attention์ ์์๋ฅผ ๊ณ ๋ คํ์ง ๋ชปํจ
- RNN์ ์์ฐจ์ ์ผ๋ก ํ์ตํ์ฌ ์์๋ฅผ ๋ฐ์ํ์ง๋ง, Transformer๋ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด Positional Encoding์ ์ฌ์ฉ

- ํ์๋ ์ฌ์ธ(sin), ์ง์๋ ์ฝ์ฌ์ธ(cos)ํจ์๋ฅผ ์ฌ์ฉํด ๊ฐ ๋จ์ด์ ๊ณ ์ ํ ์์น ์ ๋ณด๋ฅผ ๋ถ์ฌ
Encoder
1๏ธโฃ Input Embedding: ์
๋ ฅ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ์ฌ ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ ํ์์ผ๋ก ๋ณํ
2๏ธโฃ Positional Encoding:
- Self-Attention์ ์์๋ฅผ ๊ณ ๋ คํ์ง ์์ผ๋ฏ๋ก, ์ฌ์ธ(sin), ์ฝ์ฌ์ธ(cos) ํจ์๋ฅผ ํ์ฉํด ๋จ์ด ์์ ์ ๋ณด๋ฅผ ์ถ๊ฐ
3๏ธโฃ Multi-Head Attention:
- Self-Attention์ ํ์ฉํ์ฌ ์
๋ ฅ ๋ฌธ์ฅ์ ๋ชจ๋ ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ์ต
- ์ฌ๋ฌ ๊ฐ์ Attention Head๋ฅผ ๋ณ๋ ฌ๋ก ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ฌธ๋งฅ์ ๋ฐ์
4๏ธโฃ Add & Norm (์์ฌ ์ฐ๊ฒฐ ๋ฐ ์ ๊ทํ)
- Residual Connection: ๊น์ ๋คํธ์ํฌ์์ ์ ๋ณด ์์ค ๋ฐฉ์ง, ๊ธฐ์ธ๊ธฐ ํ๋ฆ ์ํํ โ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ํด๊ฒฐ
- Layer Normalization: ๊ฐ์ค์น ๊ฐ ๋ถํฌ๋ฅผ ์ผ์ ํ๊ฒ ์ ์งํ์ฌ ํ๋ จ ์๋๋ฅผ ์ฆ๊ฐ์ํค๊ณ ๊ณผ์ ํฉ ๋ฐฉ์ง
5๏ธโฃ Feed-Forward Network (FFN)
- ๊ฐ๋ณ ๋จ์ด์ ํํ์ ๋น์ ํ์ ์ผ๋ก ๋ณํํ์ฌ ๋ ํ๋ถํ ์๋ฏธ๋ฅผ ํ์ต (ReLU ํ์ฑํ ํจ์ ์ฌ์ฉ)
- ๊ฐ ๋จ์ด๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ๋๋ฏ๋ก ๋ณ๋ ฌ ์ฐ์ฐ ๊ฐ๋ฅ
6๏ธโฃ Layer Stacking:
- ์ฌ๋ฌ ๊ฐ์ Encoder ๋ธ๋ก์ ์์ ๊ณ ์ฐจ์์ ์ธ ํจํด ํ์ต
- ๋ฌธ์ฅ ๋ด ๋จ์ด ๊ฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ๊น์ด ์๊ฒ ํ์ต
Decoder
1๏ธโฃ Input Embedding: ๋์ฝ๋์ ์
๋ ฅ์ ๋ฒกํฐํํ์ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅํ๋๋ก ๋ณํ
2๏ธโฃ Positional Encoding: ๋จ์ด ์์๋ฅผ ๊ณ ๋ คํ ์ ์๋๋ก ์ถ๊ฐ ์ ๋ณด ์ ๊ณต
3๏ธโฃ Masked Multi-Head Attention:
- Look-ahead Mask๋ฅผ ์ ์ฉํ์ฌ ๋ฏธ๋ ๋จ์ด๋ฅผ ์ฐธ์กฐํ์ง ์๋๋ก ํจ โ ์ฌ๋ฐ๋ฅธ ๋ฌธ์ฅ ์์ฑ ๊ฐ๋ฅ
- Decoder๊ฐ ์ด๋ฏธ ์์ฑ๋ ๋จ์ด๋ง ํ์ฉํ์ฌ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ์ ๋
4๏ธโฃ Encoder-Decoder Attention:
- Encoder์์ ์์ฑ๋ ์ ๋ณด์ Decoder์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ ์ ํ ์ถ๋ ฅ์ ์์ฑ
- ์
๋ ฅ ๋ฌธ์ฅ๊ณผ ์ถ๋ ฅ ๋ฌธ์ฅ์ด ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง ํ์ต
5๏ธโฃ Add & Norm (์์ฌ ์ฐ๊ฒฐ ๋ฐ ์ ๊ทํ)
- Residual Connection์ ํตํด ์ ๋ณด ์์ค์ ๋ฐฉ์งํ๊ณ , Layer Normalization์ผ๋ก ์์ ์ ์ธ ํ์ต ์ ๋
6๏ธโฃ Feed-Forward Network (FFN)
- ๋จ์ด์ ํน์ง์ ๊ฐํํ๊ณ , ๋ณต์กํ ๋ณํ์ ์ํํ์ฌ ๋ ๋์ ํํ ํ์ต
7๏ธโฃ Output Layer (Softmax & Linear Projection)
- ์ต์ข
์ ์ผ๋ก Softmax๋ฅผ ์ ์ฉํ์ฌ ๋ค์ ๋จ์ด๋ฅผ ์์ฑํ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐ
8๏ธโฃ Layer Stacking:
- Encoder์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฌ๋ฌ ๊ฐ์ Decoder ๋ธ๋ก์ ์์์ ์ ๊ตํ ๋ฌธ์ฅ ์์ฑ ๊ฐ๋ฅ
๐ก ์ฆ, Encoder๋ ๋ฌธ์ฅ์ ์ดํดํ๊ณ , Decoder๋ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ฒ์ญ์ ์์ฑํ๋ ์ญํ
ํ๊ณ์
- ์ฐ์ฐ๋ ๋ฌธ์ : Self-Attention์ ๋ณต์ก๋๊ฐ O(n^2)์ด๋ผ ๊ธด ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ ๋ ๋น์ฉ์ด ํผ
- ๋ฐ์ดํฐ ์์กด์ฑ: ๋๋์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฉฐ, ์์ ๋ฐ์ดํฐ์์๋ ์ฑ๋ฅ์ด ๋ฎ์์ง ์ ์์
ํ์ฌ(2025๋
1์ ๊ธฐ์ค)
- 2017๋
๋
ผ๋ฌธ ํ๋๊ฐ NLP ํจ๋ฌ๋ค์์ ์์ ํ ๋ฐ๊ฟ ๋์
- ๊ธฐ์กด RNN/LSTM์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , Self-Attention ๊ธฐ๋ฐ ์ํคํ
์ฒ๊ฐ ํ์ค์ด ๋จ
- ํ์ฌ OpenAI์ GPT, Google's BERT, Meta์ LLaMA ๋ฑ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM) ๋ค์ด ๋ชจ๋ Transformer ๊ธฐ๋ฐ