[AI] Transformer ์ด์ „

Yumya's recordยท2025๋…„ 2์›” 23์ผ

SKALA

๋ชฉ๋ก ๋ณด๊ธฐ
1/25
post-thumbnail

๐Ÿง AI์˜ ์—ญ์‚ฌ๋ถ€ํ„ฐ Transformer ๋“ฑ์žฅ ์ „๊นŒ์ง€ ์ •๋ฆฌ ๐Ÿง

AI ์—ญ์‚ฌ

1950๋…„/ ์ปดํ“จํ„ฐ๊ฐ€ ์ƒ๊ฒจ๋‚จ๊ณผ ํ•จ๊ป˜ ์ธ๊ณต์ง€๋Šฅ(๋จธ์‹ ๋Ÿฌ๋‹)์ด ์ƒ๊ฒจ๋‚ฌ๋‹ค.

2000๋…„/ ํฐ ๋…ธ์ด๋งŒ์ด ์ปดํ“จํ„ฐ์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ CPU, ๋ฉ”๋ชจ๋ฆฌ, ์—ฐ์‚ฐ์žฅ์น˜๋กœ ์ •์˜ํ–ˆ๋‹ค.

๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ ค๋ฉด 1๊ฐœ์˜ CPU๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ™•์žฅ์‹œํ‚ค๋ฉฐ, ๋น„์šฉ๋„ ๋งŽ์ด ๋“ค์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ํšจ์œจ์ ์ด์ง€ ์•Š์•˜๋‹ค.
(์ค‘์‹ฌ CPU์—์„œ ์žฅ์• ๊ฐ€ ๋ฐœ์ƒํ•  ๊ฒฝ์šฐ ํ•ด๋‹น ์‹œ์Šคํ…œ์€ down๋˜๋Š” ๊ฒƒ์ด๋‹ค.)

์ดํ›„ ํด๋ผ์šฐ๋“œ๊ฐ€ ๋“ฑ์žฅํ•˜๊ฒŒ ๋˜๋ฉด์„œ CPU๋ฅผ ๋ณ‘๋ ฌ๋กœ ๋ถ™์—ฌ ๊ฐ€์ƒํ™”๋ฅผ ์‹œํ‚ด์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ๋†’์˜€๊ณ , ์‚ฌ๋žŒ์˜ ๋‰ด๋Ÿฐ์„ ํ‰๋‚ด๋‚ผ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

๋™์‹œ์—, ์‚ฌ๋žŒ๋“ค์ด ์ปดํ“จํ„ฐ๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ๊ฐ€ ์Œ“์ด๋Š”๋ฐ, ์ •ํ˜• ๋ฐ์ดํ„ฐ์™€ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋กœ ๋‚˜๋‰œ๋‹ค.

์ •ํ˜• ๋ฐ์ดํ„ฐ

๋ฏธ๋ฆฌ ์ •ํ•ด๋†“์€ ํ˜•์‹๊ณผ ๊ตฌ์กฐ์— ๋”ฐ๋ผ ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ
์˜๋ฏธ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ๋งํ•ด ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•˜๋„๋ก ๊ด€๊ณ„์—ฐ์‚ฐ(ํ‘œ)๋กœ ๊ตฌ์„ฑ
ex) RDB์˜ ํ…Œ์ด๋ธ”, spreadsheet, csv ๋“ฑ

์ฐธ๊ณ -TTA ์ •๋ณดํ†ต์‹ ์šฉ์–ด์‚ฌ์ „-์ •ํ˜• ๋ฐ์ดํ„ฐ

๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ

์ •์˜๋œ ๊ตฌ์กฐ๊ฐ€ ์—†์ด ์ •ํ˜•ํ™”๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ
ex) ๋™์˜์ƒ ํŒŒ์ผ, ์˜ค๋””์˜ค ํŒŒ์ผ, ์‚ฌ์ง„ ๋“ฑ

์ฐธ๊ณ -TTA ์ •๋ณดํ†ต์‹ ์šฉ์–ด์‚ฌ์ „-๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ


ํด๋ผ์šฐ๋“œ ๋„์ž… ์ด์ „์—๋Š” ์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ๋กœ ํ™œ์šฉํ•ด ์ธ๊ณต์ง€๋Šฅ์„ ํ•™์Šต์‹œ์ผฐ๋‹ค.
(์‹ค์ œ๋กœ ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ 80%๊ฐ€ ์ •ํ˜• ๋ฐ์ดํ„ฐ์ด๋‹ค.)
๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋Š” ์ •์˜๋œ ํ˜•์‹๊ณผ ๊ตฌ์กฐ๊ฐ€ ์—†์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ์ €์žฅํ•ด ๋ถ„์„ํ•˜๊ณ , ํ™œ์šฉํ•˜๋Š”๋ฐ ์–ด๋ ค์›€์ด ๋งŽ์•˜๋‹ค.

ํ•˜์ง€๋งŒ ํด๋ผ์šฐ๋“œ๊ฐ€ ๋„์ž…๋˜๋ฉด์„œ ์ž๋™ ํ™•์žฅ, AI ๋ถ„์„, ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ, ๋ณด์•ˆ ๊ด€๋ฆฌ ๋“ฑ์ด ์šฉ์ดํ•ด์ง€๋ฉด์„œ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์‰ฝ๊ฒŒ ์ €์žฅ, ๋ถ„์„, ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

๊ทธ๋Ÿฌ๋ฉด์„œ ๋”ฅ๋Ÿฌ๋‹์ด ๋“ฑ์žฅํ•˜๊ฒŒ ๋˜์—ˆ์œผ๋ฉฐ, ๋Œ€ํ‘œ์ ์œผ๋กœ CNN, RNN/LSTM์ด ์žˆ๋‹ค. CNN์ด๋ž€ ์ธ๊ฐ„์˜ ์‹œ๊ฐ์„ ๋ชจ๋ฐฉํ•œ ์ธ๊ณต์ง€๋Šฅ์œผ๋กœ, ์ด๋ฏธ์ง€๋„ท ํ”„๋กœ์ ํŠธ๋ฅผ ํ†ตํ•ด ๋ฐœ์ „ํ–ˆ๋‹ค. RNN/LSTM์ด๋ž€ ์‚ฌ๋žŒ์ด ์ˆœ์ฐจ์ ์ธ ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์„ ๋ชจ๋ฐฉํ•œ ์ธ๊ณต์ง€๋Šฅ์œผ๋กœ, Text data(์ •ํ˜• ๋ฐ์ดํ„ฐ)๋ฅผ ํ†ตํ•ด ๋ฐœ์ „ํ–ˆ๋‹ค.


2017/ 'Attention Is All You Need' ๋…ผ๋ฌธ์—์„œ Transformer model์„ ์ œ์•ˆํ–ˆ๋‹ค.

Transformer model์€ seq2seq Model์˜ Encoder์™€ Decoder๋กœ ๋‚˜๋ˆ„์–ด์ง„ ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅด๋ฉด์„œ Attention๋งŒ์œผ๋กœ ๊ตฌํ˜„ํ•œ ๋ชจ๋ธ์ด๋‹ค. ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ BERT, LLM, GPT, foundation Model ๋“ฑ์ด ์ƒ๊ฒจ๋‚ฌ๋‹ค.

์ดํ›„ ์˜์ƒ, ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ Foundation Model ๋“ฑ ์—ฌ๋Ÿฌ Model์ด ๊ฐœ๋ฐœ๋œ๋‹ค. ์ตœ๊ทผ DeepSeek๊ฐ€ ๋“ฑ์žฅํ•˜์˜€์œผ๋‚˜, ๋ณด์•ˆ ๋ฌธ์ œ๊ฐ€ ๋ฐœ๊ฒฌ๋˜๋ฉด์„œ ์‚ฌ์šฉ ๊ธˆ์ง€๋˜๊ณ  ์žˆ๋‹ค.


๊ฐœ๋ฐœ์˜ ๋ณ€ํ™”

๋”ฅ๋Ÿฌ๋‹ ๋“ฑ์žฅ ์ด์ „์„ ์ „ํ†ต์  ๊ฐœ๋ฐœ, AI ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ์ด๋ผ๊ณ  ๋ถ€๋ฅผ ์ˆ˜ ์žˆ๋‹ค.

์ „ํ†ต์  ๊ฐœ๋ฐœ

ํ˜„์žฌ์— ์œ ์šฉํ•œ ๋ฌด์–ธ๊ฐ€๋ฅผ ๋งŒ๋“ค์–ด ์ปดํ“จํ„ฐ/๊ธฐ๊ณ„์—๊ฒŒ ์ผ์„ ์‹œํ‚ค๋Š” ๊ณผ์ •์ด๋‚˜ ๋„๊ตฌ์ด๋‹ค. (=์—ฐ์—ญ) ๋Œ€ํ‘œ์ ์œผ๋กœ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์ด ์žˆ์œผ๋ฉฐ, ์š”๊ตฌ์‚ฌํ•ญ์„ ํ•จ์ˆ˜๋กœ ์ •์˜ํ•ด ํ”„๋กœ๊ทธ๋ž˜๋ฐ ํ•œ๋‹ค.

AI ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ

๋ฏธ๋ž˜์— ๋ฌด์–ธ๊ฐ€๋ฅผ ๋งŒ๋“ค์–ด ์ปดํ“จํ„ฐ/๊ธฐ๊ณ„๊ฐ€ ์Šค์Šค๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ์ค€๋น„์‹œํ‚ค๋Š” ๊ณผ์ •์ด๋‚˜ ๋„๊ตฌ์ด๋‹ค. (=๊ฒฝํ—˜/๊ท€๋‚ฉ) ์ฆ‰, ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋™์ž‘ํ•˜๋Š” Model์„ ์ƒ์„ฑํ•˜๋ฉฐ, ๋ชจ๋ธ์€ ํ•จ์ˆ˜์™€ ๊ฐ€์ค‘์น˜๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ๋‹ค. ๊ฐ€์ค‘์น˜์— ๋”ฐ๋ผ ์˜ˆ์ธก, ๋ถ„๋ฅ˜, ์ถ”์ฒœ ๋ชจ๋ธ๋กœ ๋‚˜๋‰œ๋‹ค.

Model

์ปดํ“จํ„ฐ๊ฐ€ ์ง์ ‘ ์ฐพ์€ ํ•จ์ˆ˜, ์ฆ‰ ๋ฐ์ดํ„ฐ๋ฅผ ํ† ๋Œ€๋กœ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์ฐพ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

์ฆ‰, ๊ณผ๊ฑฐ์—๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ํ†ตํ•ด ์ž…๋ ฅ๊ณผ ๊ฒฐ๊ณผ ์‚ฌ์ด์˜ ๋…ผ์ง€๋ฅผ ์‚ฌ๋žŒ์ด ํŒŒ์•…ํ•˜๊ณ  ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค๋ฉด, ํ˜„์žฌ์—๋Š” ์ž…๋ ฅ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ค€๋น„ํ•ด ์ปดํ“จํ„ฐ๊ฐ€ Model๋กœ ์ง์ ‘ ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก Model์„ ๋งŒ๋“ ๋‹ค.


์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ๋ฐฉ์‹ ๋ณ€ํ™”

๊ฐœ๋ฐœ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ๋ฐฉ์‹๋„ ๋ณ€ํ™”ํ–ˆ๋‹ค.

  1. Data ์ž…๋ ฅ - Algorithm - ๊ฒฐ๊ณผ ๋„์ถœ
  2. Data ์ž…๋ ฅ - ML Model(๋จธ์‹ ๋Ÿฌ๋‹) - ๊ฒฐ๊ณผ ๋„์ถœ
  3. Data ์ž…๋ ฅ - Prompt - ๊ฒฐ๊ณผ ๋„์ถœ

์‰ฝ๊ฒŒ ์ƒ๊ฐํ•˜๋ฉด ๊ธฐ์กด์—๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ด ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ๋‹ค๋ฉด, ๋จธ์‹ ๋Ÿฌ๋‹์ด ๋„์ž…๋˜๋ฉด์„œ ์ธ๊ณต์ง€๋Šฅ์„ ํ†ตํ•ด ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

์—ฌ๊ธฐ๊นŒ์ง€๋งŒ ํ•ด๋„ ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ํ•จ์œผ๋กœ์จ ์ธ๊ณต์ง€๋Šฅ์„ ํ™œ์šฉํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€๊ณตํ•ด์•ผ ํ–ˆ๋‹ค.

ํ˜„์žฌ์—๋Š” ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ํ…์ŠคํŠธ๋กœ ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ž…๋ ฅํ•˜๋ฉด, ์ธ๊ณต์ง€๋Šฅ์ด ๊ฒฐ๊ณผ๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ฐ˜ํ™˜ํ•ด ๋„์ถœํ•œ๋‹ค. ex) ChatGPT


Trnasformer ์ด์ „ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ

Word Embedding

๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜

ํ•œ๊ณ„

  1. ๋™์Œ์ด์˜์–ด ์ฒ˜๋ฆฌ ๋ถˆ๊ฐ€ - ๋‹จ์–ด๊ฐ€ ๊ฐ™์œผ๋ฉด ๊ฐ™์€ ๋ฒกํ„ฐ์— ์ €์žฅ๋œ๋‹ค.
  2. ์˜คํƒ€, ์ƒˆ๋กœ์šด ๋‹จ์–ด ์ฒ˜๋ฆฌ ๋ถˆ๊ฐ€ - <UNK> ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ์ฒ˜๋ฆฌ๋œ๋‹ค.

์ด์— ๋‹จ์–ด์˜ ์„ธ๋ถ€ ๊ตฌ์„ฑ๊ณผ ์ฃผ๋ณ€ ๋งฅ๋ฝ ํŒŒ์•…์„ ์œ„ํ•œ Token๊ณผ Context ๊ธฐ๋ฐ˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ–ˆ๋‹ค.

RNN(Recurrent Neural Network)

๊ธฐ์–ต ์žฅ์น˜(์€๋‹‰ ๊ฐ’)๊ฐ€ ์žˆ๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋„คํŠธ์›Œํฌ

Encoder

์ž…๋ ฅ ๋ฌธ์žฅ์˜ ์€๋‹‰๊ฐ’์„ ๊ณ„์‚ฐ

Decoder

Context Vector(๋ฌธ์žฅ)๋ฅผ ๋ฐ›์•„ ๋ชฉํ‘œ ๋ฌธ์žฅ์„ ์ƒ์„ฑ

ํ•œ๊ณ„

๊ธฐ์–ต ์žฅ์น˜๋ฅผ ์ด์šฉํ•ด ์ž…๋ ฅ ๋ฌธ์žฅ์„ ์ˆœ์„œ๋Œ€๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ ์˜ค๋ž˜๋œ ์ •๋ณด๋ณด๋‹ค ์ตœ๊ทผ ์ •๋ณด์— ๋น„์ค‘์„ ํฌ๊ฒŒ ๋‘๊ฒŒ ๋˜๋ฉด์„œ ๋ฌธ์žฅ์ด ๊ธธ์–ด์ง€๋ฉด ๋ง๊ฐ์ด ๋ฐœ์ƒํ•˜๊ฒŒ ๋œ๋‹ค.

์ด์— Context Vector์— ์ง‘์ค‘๋˜๋Š” ๋ถ€๋‹ด์„ ๋œ์–ด์ฃผ๊ธฐ ์œ„ํ•ด Attention์„ ๋„์ž…ํ•จ์œผ๋กœ์จ ์ด๋ฅผ ํ•ด์†Œํ•˜๊ณ ์ž ํ–ˆ๋‹ค.


์ด์–ด์„œ Attention ๋ฐ Transformer์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ๋‹ค. ๐Ÿ‘€

profile
๐Ÿ€ ูฉ(หŠแ—œห‹*)ูˆ ๐Ÿ€

0๊ฐœ์˜ ๋Œ“๊ธ€