์
๋ ฅ training sequence
: hello
Vocabulary
: [h,e, l, o] --> 4์ฐจ์ ์-ํซ ๋ฒกํฐ ํํ ๊ฐ๋ฅ
์ฒซ time step์์ h๊ฐ ์ฃผ์ด์ง๋ฉด e๋ฅผ ์์ธกํด์ผ ํ๊ณ ,
2๋ฒ์งธ time step์์ h์ e๊ฐ ์ฃผ์ด์ง๋ฉด l๋ฅผ ์์ธก
์ ์ ์ฐจ์์ 3์ด๋ผ๊ณ ๊ฐ์ . (๋๋ถ๋ถ 1์ฉ ์ค์ฌ์ ํ๋ค - ๋จ์ด 2๊ฐ์ฉ ์กฐํฉ )
์ฒซ๋ฒ์งธ hidden layer ()๋ ์ด์ ์ time step์ด ์์ผ๋ฏ๋ก
(์ด์ hidden) =[0,0,0] ์ผ๋ก default ์ค๋ค.
๊ฐ ์์ ํ๋ ฌ ๊ฐ ๊ด์ฌํ๊ณ ์์๋ ๊ฐ ๊ด์ฌํ๋ค.
output์ ๋ด๊ธฐ ์ํด์ ๊ฐ time step์ hidden layer์ ๋ฅผ ์ ์ฉ
output layer์ ๋
ธ๋ ์๋ vocabulary(์ฌ์ )์ ํฌ๊ธฐ์ ๊ฐ๋ค. (4์ฐจ์)
softmax๋ฅผ ์ทจํด์ ๋ค์ ๋จ์ด๊ฐ ๋ฌด์์ธ์ง ์์ธกํด ์-ํซ ๋ฒกํฐ๋ก ํ๊ธฐํด์ผํ๋๊น!
1๋ฒ์งธ output layer [h
: 1.0, e
: 2.2, l
:-3.0, o
: 4.1] --> o๋ก ์์ธก
ํ์ง๋ง, target chars๋ e์ด๋ฏ๋ก ๋๋ฒ์งธ ํ๋ฅ ์ ๋์ด๋๋ก ํ์ตํด์ผํ๋ค.
๊ฐ ์ญ์ ํ๋ฅผ ํตํด ๊ฐ์ด ์
๋ฐ์ดํธ
ํ time step์ ์์ธก๊ฐ์ ๋ค์ time step์ input์ผ๋ก ์ฌ์ฌ์ฉ
๊ธด ๋ฌธ์ฅ๋ค ๊ฐ์ ๊ฒฝ์ฐ์, ๋จ์ด 1byte ํ๋ํ๋ vocabulary๋ก ๋ค์ด๊ฐ๊ณ ๊ณต๋ฐฑ ๋๋ . , ๋ ํน์ ๋ฌธ์๋ก ๋ค์ด๊ฐ 1 dimension์ ์ฐจ์งํ๊ฒ ๋๋ค.
Backpropagation through time = BPTT
truncation
์ฌ์ฉ