[Week 4-4] ๐Ÿ’ฌTransformer

Jadeยท2021๋…„ 2์›” 18์ผ
0

๋ถ€์ŠคํŠธ์บ ํ”„ AI Tech

๋ชฉ๋ก ๋ณด๊ธฐ
19/54

4์ฃผ์ฐจ ๋ชฉ์š”์ผ

  • Transformer ๊ฐœ์š”

๐Ÿ“[Transformer ๊ฐœ์š”]

  • ์–‘๋ฐฉํ–ฅ RNN
    ๊ธฐ๋ณธ RNN์€ ๋ฌธ์žฅ์„ ์™ผ์ชฝ์—์„œ๋ถ€ํ„ฐ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฌธ์žฅ์˜ ์˜ค๋ฅธ์ชฝ์— ์žˆ๋Š” ๋‹จ์–ด๋“ค์—๋Š” ์™ผ์ชฝ ๋‹จ์–ด์˜ ์ •๋ณด๊ฐ€ ๋‹ด๊ธด๋‹ค. ํ•˜์ง€๋งŒ ๋ฌธ์žฅ์˜ ์™ผ์ชฝ์— ์žˆ๋Š” ๋‹จ์–ด์— ์˜ค๋ฅธ์ชฝ ๋‹จ์–ด๋“ค์˜ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์‹ถ์„ ์ˆ˜๋„ ์žˆ๋‹ค. ์ด๋Ÿด ๋•Œ๋Š” ๊ธฐ๋ณธ RNN ์ด์™ธ์— ์˜ค๋ฅธ์ชฝ์—์„œ๋ถ€ํ„ฐ ๋ฌธ์žฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ์—ญ๋ฐฉํ–ฅ RNN์„ ํ•˜๋‚˜ ๋” ๋งŒ๋“ค์–ด์„œ ๋‘ RNN์˜ hidden state ๋ฒกํ„ฐ๋ฅผ ์—ฐ๊ฒฐ(concat)ํ•ด์„œ ์‚ฌ์šฉํ•œ๋‹ค. ์‹œํ€€์Šค์˜ ๊ฐ ๋‹จ์–ด๋ณ„๋กœ ์ด ๋ฒกํ„ฐ๋ฅผ ํ•˜๋‚˜์”ฉ ๊ฐ–๊ฒŒ ๋˜๋Š”๋ฐ, ์ด๊ฒƒ์„ ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ๋ผ๊ณ  ํ•œ๋‹ค.

  • Transformer์˜ ๊ตฌ์กฐ
    Transformer๋Š” RNN์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  Attention๋งŒ์„ ์‚ฌ์šฉํ•ด์„œ ์ž์—ฐ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด๋‹ค. seq2seq ๋ชจ๋ธ์—์„œ๋Š” ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๊ฐ€ RNN์ด์—ˆ๋Š”๋ฐ, Transformer์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋Š” Attention์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค. ์ž…๋ ฅ๋œ ์‹œํ€€์Šค์˜ ๊ฐ ๋‹จ์–ด๊ฐ€ ์–ดํ…์…˜ ๋ชจ๋“ˆ์„ ํ†ต๊ณผํ•˜๋ฉด ๊ฐ ๋‹จ์–ด๋ณ„๋กœ ์‹œํ€€์Šค ๋‹จ์–ด์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ๋ฐ˜์˜๋œ ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

    ๐Ÿ“Œ ์ด ๋•Œ ์ธ์ฝ”๋”์—์„œ self-attention์ด ์ผ์–ด๋‚˜๋Š”๋ฐ ์•„์ง ์ด๊ฒŒ ๋ญ”์ง€ ์ž˜ ๋ชจ๋ฅด๊ฒ ๋‹ค. ๋” ๊ณต๋ถ€ํ•ด์„œ ์ฑ„์›Œ๋„ฃ์„ ๊ฒƒ.


๐Ÿ‘จโ€๐Ÿ‘ฉโ€๐Ÿ‘งโ€๐Ÿ‘ฆ[ํ”ผ์–ด ์„ธ์…˜]

๊ทธ์ €๊ป˜ ํŒ€์› ์ค‘ ํ•œ ๋ถ„์˜ ๋ชจ๋ธ์ด loss๊ฐ€ ๋„ˆ๋ฌด ํฌ๊ณ  ํ•™์Šต์ด ์ž˜ ๋˜์ง€ ์•Š๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋Š”๋ฐ, ํ•ด๊ฒฐ๋˜์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ํ™”๋ฉด์„ ํ•จ๊ป˜ ๋ณด๋ฉด์„œ ์ด์•ผ๊ธฐํ–ˆ๋‹ค.

  • ๋ฐ์ดํ„ฐ๋ฅผ ๋ถˆ๋Ÿฌ์˜ฌ ๋•Œ ๋ฌด์กฐ๊ฑด 3์ฑ„๋„ ์ด๋ฏธ์ง€๋กœ ๊ฐ€์ •ํ•˜๊ณ  ๋ถˆ๋Ÿฌ์™”๋Š”๋ฐ ๊ฐœ์ค‘์— 1์ฑ„๋„ grayscale ์ด๋ฏธ์ง€๊ฐ€ ์„ž์—ฌ ์žˆ์—ˆ๊ณ  ์ด ์ด๋ฏธ์ง€๋ฅผ 3์ฑ„๋„๋กœ ํ™•์žฅ์‹œํ‚ค๋Š” ๊ณผ์ •์—์„œ ์ •๊ทœํ™”๊ฐ€ ์ž˜ ๋˜์ง€ ์•Š๋Š” ๋“ฑ์˜ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ–ˆ๋˜ ๊ฑฐ์˜€์Œ
  • batch normalization์„ ํ™œ์šฉํ•ด์„œ ์ •ํ™•๋„๊ฐ€ ํ–ฅ์ƒ๋จ

batch normalization์˜ ํšจ๊ณผ๊ฐ€ ๊ถ๊ธˆํ•ด์„œ ํ”ผ์–ด ์„ธ์…˜์ด ๋๋‚˜๊ณ  ๋‚˜์„œ ์ข€ ์ฐพ์•„๋ดค๋‹ค.

๋ ˆ์ด์–ด๋ฅผ ๊นŠ๊ฒŒ ์Œ“์„ ๊ฒฝ์šฐ ์ด์ „ ๋ ˆ์ด์–ด์—์„œ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ณ€ํ™”๊ฐ€ ๊ณ„์† ๋ˆ„์ ๋˜๋ฉด์„œ ํ›„๋ฐ˜ ๋ ˆ์ด์–ด์—์„œ๋Š” ๊ทธ๊ฒƒ์ด ์ฆํญ๋˜์–ด Internal Covariate Shift(๋ ˆ์ด์–ด๋ฅผ ํ†ต๊ณผํ•  ๋•Œ ๋งˆ๋‹ค Covariate Shift ๊ฐ€ ์ผ์–ด๋‚˜๋ฉด์„œ ์ž…๋ ฅ์˜ ๋ถ„ํฌ๊ฐ€ ์•ฝ๊ฐ„์”ฉ ๋ณ€ํ•˜๋Š” ํ˜„์ƒ, ์ด ๋ธ”๋กœ๊ทธ๋ฅผ ์ฐธ๊ณ ํ•จ) ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค. batch normalization์„ ์‚ฌ์šฉํ•˜๋ฉด ์ด ํ˜„์ƒ์„ ์ค„์ผ ์ˆ˜ ์žˆ๊ณ , ์ •๊ทœํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์— ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์„ ๋‹จ์ถ•์‹œํ‚ฌ ์ˆ˜ ์žˆ์–ด ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” CNN ๋ชจ๋ธ์— ๋งŽ์ด ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•œ๋‹ค.

profile
๋ฐ˜๊ฐ€์›Œ์šฉ

0๊ฐœ์˜ ๋Œ“๊ธ€