4์ฃผ์ฐจ ๋ชฉ์์ผ
- Transformer ๊ฐ์
์๋ฐฉํฅ RNN
๊ธฐ๋ณธ RNN์ ๋ฌธ์ฅ์ ์ผ์ชฝ์์๋ถํฐ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๋ฌธ์ฅ์ ์ค๋ฅธ์ชฝ์ ์๋ ๋จ์ด๋ค์๋ ์ผ์ชฝ ๋จ์ด์ ์ ๋ณด๊ฐ ๋ด๊ธด๋ค. ํ์ง๋ง ๋ฌธ์ฅ์ ์ผ์ชฝ์ ์๋ ๋จ์ด์ ์ค๋ฅธ์ชฝ ๋จ์ด๋ค์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์ถ์ ์๋ ์๋ค. ์ด๋ด ๋๋ ๊ธฐ๋ณธ RNN ์ด์ธ์ ์ค๋ฅธ์ชฝ์์๋ถํฐ ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ๋ ์ญ๋ฐฉํฅ RNN์ ํ๋ ๋ ๋ง๋ค์ด์ ๋ RNN์ hidden state ๋ฒกํฐ๋ฅผ ์ฐ๊ฒฐ(concat)ํด์ ์ฌ์ฉํ๋ค. ์ํ์ค์ ๊ฐ ๋จ์ด๋ณ๋ก ์ด ๋ฒกํฐ๋ฅผ ํ๋์ฉ ๊ฐ๊ฒ ๋๋๋ฐ, ์ด๊ฒ์ ์ธ์ฝ๋ฉ ๋ฒกํฐ๋ผ๊ณ ํ๋ค.
Transformer์ ๊ตฌ์กฐ
Transformer๋ RNN์ ์ฌ์ฉํ์ง ์๊ณ Attention๋ง์ ์ฌ์ฉํด์ ์์ฐ์ด๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ด๋ค. seq2seq ๋ชจ๋ธ์์๋ ์ธ์ฝ๋์ ๋์ฝ๋๊ฐ RNN์ด์๋๋ฐ, Transformer์ ์ธ์ฝ๋์ ๋์ฝ๋๋ Attention์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์
๋ ฅ๋ ์ํ์ค์ ๊ฐ ๋จ์ด๊ฐ ์ดํ
์
๋ชจ๋์ ํต๊ณผํ๋ฉด ๊ฐ ๋จ์ด๋ณ๋ก ์ํ์ค ๋จ์ด์ ๋ํ ์ ๋ณด๊ฐ ๋ฐ์๋ ์ธ์ฝ๋ฉ ๋ฒกํฐ๋ฅผ ์ป์ ์ ์๋ค.
๐ ์ด ๋ ์ธ์ฝ๋์์ self-attention์ด ์ผ์ด๋๋๋ฐ ์์ง ์ด๊ฒ ๋ญ์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค. ๋ ๊ณต๋ถํด์ ์ฑ์๋ฃ์ ๊ฒ.
๊ทธ์ ๊ป ํ์ ์ค ํ ๋ถ์ ๋ชจ๋ธ์ด loss๊ฐ ๋๋ฌด ํฌ๊ณ ํ์ต์ด ์ ๋์ง ์๋ ๋ฌธ์ ๊ฐ ์์๋๋ฐ, ํด๊ฒฐ๋์๋ค๊ณ ํ๋ค. ํ๋ฉด์ ํจ๊ป ๋ณด๋ฉด์ ์ด์ผ๊ธฐํ๋ค.
batch normalization์ ํจ๊ณผ๊ฐ ๊ถ๊ธํด์ ํผ์ด ์ธ์ ์ด ๋๋๊ณ ๋์ ์ข ์ฐพ์๋ดค๋ค.
๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์ ๊ฒฝ์ฐ ์ด์ ๋ ์ด์ด์์์ ํ๋ผ๋ฏธํฐ ๋ณํ๊ฐ ๊ณ์ ๋์ ๋๋ฉด์ ํ๋ฐ ๋ ์ด์ด์์๋ ๊ทธ๊ฒ์ด ์ฆํญ๋์ด Internal Covariate Shift(๋ ์ด์ด๋ฅผ ํต๊ณผํ ๋ ๋ง๋ค Covariate Shift ๊ฐ ์ผ์ด๋๋ฉด์ ์ ๋ ฅ์ ๋ถํฌ๊ฐ ์ฝ๊ฐ์ฉ ๋ณํ๋ ํ์, ์ด ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํจ) ์ด ๋ฐ์ํ ์ ์๋ค๊ณ ํ๋ค. batch normalization์ ์ฌ์ฉํ๋ฉด ์ด ํ์์ ์ค์ผ ์ ์๊ณ , ์ ๊ทํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ์ต์ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ ๋จ์ถ์ํฌ ์ ์์ด ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ CNN ๋ชจ๋ธ์ ๋ง์ด ์ฌ์ฉํ๋ค๊ณ ํ๋ค.