[Week 5] Transformer

ํ˜œ ์ฝฉยท2022๋…„ 10์›” 21์ผ
0
post-thumbnail

๐Ÿšฉ Bi-Directional RNNs

๐ŸŸจ Attention Module ๋™์ž‘ ๋ฐฉ์‹
1. ์ฒซ๋ฒˆ์งธ I ๋‹จ์–ด์˜ ์ž…๋ ฅ ๋ฒกํ„ฐ๊ฐ€ WQW^Q๋ฅผ ๋งŒ๋‚˜ q1q_1 ์ฟผ๋ฆฌ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜๋œ๋‹ค.

  1. I, go, home 3๊ฐœ์˜ ์ž…๋ ฅ ๋ฒกํ„ฐ๊ฐ€ ๊ฐ๊ฐ์˜ WK,WVW^K, W^V๋ฅผ ๋งŒ๋‚˜ 3๊ฐœ์˜ key ๋ฒกํ„ฐ์™€ value ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜๋œ๋‹ค.
  1. query๊ฐ€ key์— ์ ์šฉ๋ผ์„œ ์œ ์‚ฌ๋„ ๋ฐ softmax์— ์˜ํ•œ ๊ฐ€์ค‘์น˜๊ฐ€ ๊ตฌํ•ด์กŒ์„ ๋•Œ, ์ฒซ๋ฒˆ์งธ key (k1k_1)์˜ ์œ ์‚ฌ๋„๊ฐ€ ์ ์šฉ๋˜๋Š” value ๋ฒกํ„ฐ v1v_1 ์กด์žฌ
    โ†’ ์ฟผ๋ฆฌ๋Š” ํ•˜๋‚˜๋กœ ๊ณ ์ •๋˜์–ด์žˆ๋”๋ผ๋„, key์™€ value๋Š” ๋ถ„๋ฆฌ๋˜์–ด์žˆ์ง€๋งŒ ๊ฐœ์ˆ˜๋Š” ์ •ํ™•ํžˆ ์ผ์น˜ํ•ด์•ผํ•œ๋‹ค!
  1. ์ฟผ๋ฆฌ ๋ฒกํ„ฐ์™€ ๊ฐ๊ฐ์˜ key ๋ฒกํ„ฐ๋ฅผ ๋‚ด์ ํ•˜์—ฌ 3.8, -0.2, 5.9 ์œ ์‚ฌ๋„ ๊ฐ’ ๋„์ถœ
  1. ๊ทธ ๋‚ด์ ๊ฐ’๋“ค์„ softmax ๋ ˆ์ด์–ด๋ฅผ ํ†ต๊ณผํ•ด ํ•ฉ์ด 1์ธ ํ˜•ํƒœ์˜ ํ™•๋ฅ (๊ฐ€์ค‘์น˜) ๋„์ถœ

โ—๏ธ ์ž…๋ ฅ ๋ฒกํ„ฐ x1x_1์—์„œ ์ƒ์„ฑ๋œ ์ฟผ๋ฆฌ ๋ฒกํ„ฐ, key ๋ฒกํ„ฐ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํ•ด๋‹น ๋‚ด์ ๊ฐ’์ด ๋‹ค๋ฅธ ์ž…๋ ฅ(x2,x3...)x_2, x_3...) key๋ฒกํ„ฐ์™€์˜ ๋‚ด์ ๊ฐ’๋ณด๋‹ค ์ž‘์„ ์ˆ˜๋„ ์žˆ๋‹ค.

  1. ๊ฐ ๊ณ„์‚ฐ๋œ 0.2, 0.1, 0.7 ๋Š” value ๋ฒกํ„ฐ์— ๋ถ€์—ฌ๋˜๋Š” ๊ฐ€์ค‘์น˜๋กœ์จ, value ๋ฒกํ„ฐ์˜ ๊ฐ€์ค‘ ํ‰๊ท ์˜ ๊ฒฐ๊ณผ(์„ ํ˜• ๊ฒฐํ•ฉ) = ์ตœ์ข… ๋ฒกํ„ฐ hnh_n

์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ I ๋‹จ์–ด์— ๋Œ€ํ•œ sequence ์ „์ฒด์˜ ๋‹จ์–ด๋“ค์„ ์ ์ ˆํžˆ ๊ณ ๋ คํ•œ encoding ๊ฒฐ๊ณผ ๋ฒกํ„ฐ h1h_1 ์ƒ์„ฑ
go ๋‹จ์–ด์— ๋Œ€ํ•œ encoding ๋ฒกํ„ฐ h2h_2 ๋ฅผ ์–ป๊ณ  ์‹ถ๋‹ค๋ฉด, key // value ๋ฒกํ„ฐ๋“ค์€ ๋™์ผํ•˜๊ณ  query ๋ฒกํ„ฐ๋งŒ go ๋‹จ์–ด์— ๋Œ€ํ•ด ์ ์šฉํ•˜๋ฉด ๋œ๋‹ค.

self-Attention์˜ ์žฅ์ 

  • RNN์˜ long-dependency ๋ฌธ์ œ๋ฅผ ๊ทน๋ณต
  • ์ฟผ๋ฆฌ ๋ฒกํ„ฐ๋ฅผ ํ†ตํ•ด ๋ฉ€๋ฆฌ ์žˆ๋Š” ๋‹จ์–ด์—ฌ๋„ ์†์‰ฝ๊ฒŒ ๊ทธ ์ •๋ณด๋ฅผ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋‹ค.

profile
๋ฐฐ์šฐ๊ณ  ์‹ถ์€๊ฒŒ ๋งŽ์€ ๊ฐœ๋ฐœ์ž๐Ÿ“š

0๊ฐœ์˜ ๋Œ“๊ธ€