๋ณธ ๊ธ์ Hierachical Structure์ ๊ธ์ฐ๊ธฐ ๋ฐฉ์์ผ๋ก, ๊ธ์ ์ ์ฒด์ ์ธ ๋งฅ๋ฝ์ ํ์
ํ๊ธฐ ์ฝ๋๋ก ์์ฑ๋์์ต๋๋ค.
๋ํ ๋ณธ ๊ธ์ CSF(Curation Service for Facilitation)๋ก ์ธ์ฉ๋(์ฐธ์กฐ๋) ๋ชจ๋ ์ถ์ฒ๋ ์๋ตํฉ๋๋ค.
1. Introduction to Neural Networks
1.1 CONTENTS
1.2 ์ฐธ๊ณ ์์
1.3 ์ฐธ๊ณ ๋ฌธ์
1.4 KeyWords
1.4.1 Neural networks
์ฐธ์กฐ : Neural networks
- ํต์ฌ๊ฐ๋
- ์ธ๊ณต์ ๊ฒฝ๋ง์ ๊ธฐ๊ณํ์ต๊ณผ ์ธ์ง๊ณผํ์์ ์๋ฌผํ์ ์ ๊ฒฝ๋ง์์ ์๊ฐ์ ์ป์ ํต๊ณํ์ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ธ๊ณต์ ๊ฒฝ๋ง์ ์๋
์ค์ ๊ฒฐํฉ์ผ๋ก ๋คํธ์ํฌ๋ฅผ ํ์ฑํ ์ธ๊ณต ๋ด๋ฐ์ด ํ์ต์ ํตํด ์๋
์ค์ ๊ฒฐํฉ ์ธ๊ธฐ๋ฅผ ๋ณํ์์ผ, ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ฐ์ง๋ ๋ชจ๋ธ ์ ๋ฐ์ ๊ฐ๋ฆฌํจ๋ค.
1.4.2 computational graphs
์ฐธ์กฐ
- computational graphs
- computational graphs
- ํต์ฌ๊ฐ๋
- ๊ณ์ฐ ๊ณผ์ ์ ๊ทธ๋ํ๋ก ๋ํ๋ธ๊ฒ ์ฌ๊ธฐ์ ๊ทธ๋ํ๋ ๋ณต์์ ๋
ธ๋(node)์ ์์ง(edge)๋ก ํํ
- ๋
ธ๋๋ฅผ ์ฐ๊ฒฐํ๋ ์ ์ด ์์ง
1.4.3 backpropagation
์ฐธ์กฐ : backpropagation
- ํต์ฌ ๊ฐ๋
- Backpropagation์ ์ค๋ ๋ Artificial Neural Network๋ฅผ ํ์ต์ํค๊ธฐ ์ํ ์ผ๋ฐ์ ์ธ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ด๋ค. ํ๊ตญ๋ง๋ก ์ง์ญํ๋ฉด ์ญ์ ํ๋ผ๋ ๋ป์ธ๋ฐ, ๋ด๊ฐ ๋ฝ๊ณ ์ ํ๋ target๊ฐ๊ณผ ์ค์ ๋ชจ๋ธ์ด ๊ณ์ฐํ output์ด ์ผ๋ง๋ ์ฐจ์ด๊ฐ ๋๋์ง ๊ตฌํ ํ ๊ทธ ์ค์ฐจ๊ฐ์ ๋ค์ ๋ค๋ก ์ ํํด๊ฐ๋ฉด์ ๊ฐ ๋
ธ๋๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ณ์๋ค์ ๊ฐฑ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ
1.4.4 biological neurons
์ฐธ์กฐ : biological neurons
- ํต์ฌ ๊ฐ๋
- ์๋ฌผํ์ ๋ด๋ฐ์ ํ๋ ์ ์ ๋๋ ์คํ์ดํฌ๋ผ๊ณ ํ๋ ์ฝ 1 ๋ฐ๋ฆฌ ์ด ๋์ ์ธํฌ๋ง์ ๊ฐ๋ก ์ง๋ฌ ๋ ์นด๋ก์ด ์ ๊ธฐ ์ ์๋ฅผ ์์ฑํ๋ ์ ๊ฒฝ๊ณ์ ํน์ ์ธํฌ
2. Summary
2.1 ์ ์ฒด ์์ฝ
| ์ญ์ ํ ๋ฐ ์ ๊ฒฝ๋ง |
---|
์ ์ฒด์์ฝ | |
CNN์ spatial structure๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด convolutional layer๋ฅผ ์ฌ์ฉํ๋NN์ ํ ์ข
๋ฅ์ด๋ค.(FC๋ ์ด์ด๋ ์ด๋ฏธ์ง๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด ์ด๋ฏธ์ง๋ฅผ ํ๋ ฌ์ ํ์ค๋ก ์ญ ํด๋ ์์
(Flatten)๋ฅผ ํ๋๋ฐ ์ด๋ฏธ์ง์์ ๋ถ์ด์๋ ํฝ์
๋ค์ด Flattenํ ํ๋ ฌ์์๋ ์๋ก ๋จ์ด์ง๋ค.-> ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ๊ตฌ์กฐ(spatial structurw)๋ฅผ ๋ฌด์ํ๋ค. ๋ฐ๋ฉด์ CNN์ ํํฐ๋ฅผ ์ฌ๋ผ์ด๋ํจ์ผ๋ก์จ ์ฃผ์ ํฝ์
๋ค์ ๊ณ์ฐํ๋ฉด์ ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ค.) Conv ํํฐ(weights)๊ฐ ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ผ์ด๋ฉํด์ ๊ณ์ฐํ ๊ฐ๋ค์ด ๋ชจ์ฌ ๊ฐ ์ถ๋ ฅ Activation map์ ๋ง๋ ๋ค. Convolutional layer๋ ๊ฐ ๋ ์ด์ด ๋ง๋ค ๋ค์์ ํํฐ๋ฅผ ์ฌ์ฉํ ์ ์๊ณ , ๊ฐ ํํฐ๋ ์๋ก ๋ค๋ฅธ Activation map์ ์์ฑํ๋ค. ์ฐ๋ฆฌ๋ ๋ชจ๋ weights(๊ฐ์ค์น) ๋๋ ํ๋ผ๋ฏธํฐ๋ค์ ๊ฐ์ ์๊ณ ์ถ์ ๊ฒ์ด๊ณ , 5๊ฐ์์๋ Optimization์ ํตํด์ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํ ์ ์๋ค. ํ๋ผ๋ฏธํฐ๋ฅผ ์
๋ฐ์ดํธํ๋ฉด์, Loss๋ผ๋ ์ฐ์์ Loss๊ฐ ์ค์ด๋๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๊ณ ์ถ์ดํ๋ค. ๊ทธ๋ ๊ฒ ํ๊ธฐ ์ํด์๋ gradient์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ฉด ๋๋ค. Mini-batch stochastic Gradient Desent๋ ์ฐ์ ํ
์ดํฐ์ ์ผ๋ถ๋ง ๊ฐ์ง๊ณ (sample a batch of data) forword pass๋ฅผ ์ํํ ๋ค์ Loss๋ฅผ ๊ณ์ฐํ๋ค. ๊ทธ๋ฆฌ๊ณ gradient๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์ backprop๋ฅผ ์ํํ๋ค. | |
์ ๊ฒฝ๋ง์์ ์ด์ฌํ ํ๋ จ์์ผ๋๊ณ ์ค๋ฅ๋๋ ๊ฒ์ผ๋ก ๊ฑฐ๊พธ๋ก ๋ง์ถฐ๊ฐ๋ฉด์ ๋ณ์๊ฐ์ ์กฐ์ ํ์ฌ ์ ํฉํ ์์ ์ฐพ์๋ด๋๊ฒ | |
2.2 Step #01 : Computational Graph
2.2.1 Gradient Desent(๊ฒฝ์ฌํ๊ฐ๋ฒ)
- ์์์ ์๋ฏธ : ๊ธฐ์ธ๊ธฐ ๊ตฌํ๋ ์ผ๋ฐ์
- Gradient Desent์๋ Numerical Gradient์ Analytic Gradietn๊ฐ ์๋ค.
- NG๋ ๋๋ฆฌ๊ณ ๋๋ต์ ์ธ ๊ฒ์ ํ์ธํ ์ ์์ง๋ง ์ฐ๊ธฐ๊ฐ ํธํ๋ค
- AG๋ ๋น ๋ฅด๊ณ ์ ํํ์ง๋ง ์ค๋ฅ๊ฐ ๋ฐ์ํ๊ธฐ ์ฝ๋ค.
- ์ฐ๋ฆฌ๋ AG๋ฅผ ์ฐพ์ AG๋ฅผ ๊ตฌํํ ๊ฒ์ด๋ค.
cf.์ฐธ๊ณ
- ํน์ํ ์๋ฏธ์ ๋ฏธ์ ๋ถ
- ๋ฏธ๋ถ์ ์๋ฏธ
- ๋ฏธ๋ถ(์๊ฐ๋ณํ์จ)์ ์ด๋ค ์์คํ
(ํจ์)์ด ์์ ๋, ์ด ์์คํ
์ด ์ด๋ค ๋ณ์(์์ธ)์ ์ํด ์ด๋ป๊ฒ ์ํฅ์ ๋ฐ๋์ง๋ฅผ ๋ถ์ํ๋ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋๊ตฌ๋ก ์ฌ์ฉ
- ์ ๋ถ์ ์๋ฏธ
- ์ ๋ถ์ ์
๋ ฅ๋ ๊ฐ์ ๋ฐ๋ผ ๋ํ๋ ์ด ๊ฒฐ๊ณผ, ํ์์ผ๋ก ์์ธ์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ์ ์ํ๋ฅผ ๋ํ๋
- ์ํ์ Gradient ์๋ฏธ
- ๊ฒฝ์ฌ=๋์ด์ ๋ณํ=์ค์นผ๋ผ๊ฐ์ ๋ณํ์จ=ํจ์์ ๋ฏธ๋ถ์ ๋ฐฉํฅ=๋จ์๋ฒกํฐ๋ฅผ ๋ถ์ฌํด์, ์ ์ฒด์ ์ธ ๋ณํ์ ๊ฒฝํฅ์ ๋ํ๋ด๋ ์ํ์ ๋ฐฉ๋ฒ
2.2.2 Computaional Graph
- ๊ณ์ฐ์ ๊ทธ๋ํ๋ก ํผ๋ค.
- ์์์ , ๊ฐ ์ฒดํฌ ํฌ์ธํธ์ ๋์ , ๊ทธ๋ฆฌ๊ณ ๊ฐ ์ ์ ์ฐ๊ฒฐํ๋ ์ .
- ๊ณ์ฐ ๊ทธ๋ํ ์ดํด ๋จ๊ณ
- 1๋จ๊ณ
- ๊ณ์ฐ ๊ณผ์ ์ ๋
ธ๋์ ํ์ดํ๋ก๋ง ํ์
- ๋
ธ๋์ ๊ฒฐ๊ณผ๊ฐ์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ ๋ฌ
- 2๋จ๊ณ
- ๋
ธ๋๋ฅผ ์ฐ์ฐ์ผ๋ก๋ง ๊ณ ๋ ค
- ๊ณ์ฐ ๊ณผ์ ์ ์ซ์๋ฅผ ์ธ๋ถ ๋ณ์๋ก ํ์
- 3๋จ๊ณ
- x, + ๋ฑ์ ๋ฃ์ด ์ค์ ๊ทธ๋ํ๋ก ๊ณ์ฐ
- ์ด ๋จ๊ณ์์ Foward, Backward Propagation์ด ์์
- Foward Propagation : ๊ณ์ฐ์ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์งํ
- Backward Propagation : ๊ณ์ฐ์ ์ค๋ฅธ์ชฝ์์ ์ผ์ชฝ์ผ๋ก ์งํ(cf ํธ๋ฏธ๋ถ)
cf.์ฐธ๊ณ
- ๋
ธ๋
- ๋
ธ๋ ์๋ฏธ
- ๋
ธ๋(node)๋ ์ปดํจํฐ ๊ณผํ์ ์ฐ์ด๋ ๊ธฐ์ด์ ์ธ ๋จ์์ด๋ค. ๋
ธ๋๋ ๋ํ ๋คํธ์ํฌ์์๋ ์ฅ์น๋ ๋ฐ์ดํฐ ์ง์ (data point)์ ์๋ฏธ
- ํธ๋ฏธ๋ถ
- ํธ๋ฏธ๋ถ์ ์๋ฏธ
- dz(๋์ด์ ์ฆ๊ฐ๋-lim)์ ๊ตฌ์ฑํ๋ ๊ฐ๊ฐ์ ์์์ ์ฆ๊ฐ๋์ ํํํ ๋ ์ฌ์ฉํ๋ ๊ฒ.
2.2.3 Computational Graph์ ์ฌ์ฉ
- local
- ์ ์ฒด๊ฐ ๋ณต์กํด๋ ๊ฐ ๋
ธ๋์์ ๋จ์ํ ๊ณ์ฐ์ ์ง์ค์์ฌ ๋ฌธ์ ๋ฅผ ๋จ์ํ
- ์ค๊ฐ ๊ณ์ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ ๋ณด๊ด ๊ฐ๋ฅ
- Backpropagation์ ํจ์จ์ ์ผ๋ก ๊ณ์ฐ์ด ๊ฐ๋ฅ
ํ์ค ์ด์ผ๊ธฐ
- ๊ณ์ฐ ๊ณผ์ ์ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ ๊ฒ
2.3 Step #02 : Backpropagation
2.3.1 Backpropagation ์ฌ์ ์ดํด
- Cost Function = Loss Function
- Cost Function์ด๋ ์ ๊ฒฝ๋ง์ ํ๋ จ๋ฐ์ดํฐ x๋ฅผ ๊ฐํ๊ณ
- ์ค์ ์ถ๋ ฅ๊ณผ ๊ธฐ๋ ์ถ๋ ฅ๊ฐ์ ์ฐจ์ ๋ํ MSE(Mean sQuare Error)๋ฅผ ๊ตฌํ๋ ๊ฒ
- y(x)์ a์ ์ฐจ์ด๊ฐ ์์์ง ์๋ก ์ ๊ฒฝ๋ง ํ์ต์ด ์ ๋จ
- ํ๋ จ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๊ฐ์ค์น(w)์ ๋ฐ์ด์ด์ค(b)๋ฅผ ๋ณํ์ํค๋ ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํ
- Cost Function์ด ์ต์๊ฐ์ด ๋๋๋ก ํ๋ ๊ฒ์ด ์ ๊ฒฝ๋ง ํ์ต์ ๋ชฉํ.
์ด๋ป๊ฒ w ์ b๊ฐ์ ๋ณํ์์ผ์ผ ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์๊น?
- ์ฐธ๊ณ ์๋ฃ
- w(Weight : ๊ฐ์ค์น)
- ๋ค์ ๋
ธ๋๋ก ๋์ด๊ฐ๋ ๋น์ค์ ์กฐ์ ํ๋ ๋ณ์
- b(Bias : ํธํฅ)
- ์ผ์ข
์ ์ฑํฅ ๋ฒํ : ๊ฐ์คํฉ์ ๋ํด์ฃผ๋ ์์๊ฐ
- ๋ด๋ฐ์์ ํ์ฑํ ํจ์๋ฅผ ๊ฑฐ์ณ ์ต์ข
์ ์ผ๋ก ์ถ๋ ฅ๋๋ ๊ฐ์ ์กฐ์ ํ๋ ์ญํ
- w๋ b๋ฅผ ํธ๋ฏธ๋ถ์ํค๋ฉด, ์ถ๋ ฅ ์ชฝ์์ ๋งค์ฃผ ์์ ๋ณํ๊ฐ ์๊ธฐ๋ฉฐ ์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ํ์ธ
- ์ด ๋ ์ถ๋ ฅ์์์ ์ค์ฐจ๋ฅผ ๋ฐ๋ ์
๋ ฅ ์ชฝ์ผ๋ก ์ ํ์ํค๋ฉด์ w, b๋ฅผ ๊ฐฑ์ ํ๋ฉด ๋๋ค.
- Cost Function์ด ๊ฒฐ๊ตญ w์ b๋ก ์ด๋ฃจ์ด์ก๊ธฐ ๋๋ฌธ์ ์ถ๋ ฅ ๋ถ๋ถ๋ถํฐ ์์ํด์ ์
๋ ฅ์ชฝ์ผ๋ก, ์์ฐจ์ ์ผ๋กcost Function์ ๋ํ ํธ๋ฏธ๋ถ์ ๊ตฌํ๊ณ , ์ป์ ํธ๋ฏธ๋ถ ๊ฐ์ ์ด์ฉํด w์ b๊ฐ์ ๊ฐฑ์ ์ํด
- ๋ชจ๋ ํ๋ จ ๋ฐ์ดํฐ์ ๋ํด์ ์ด ์์
์ ๋ฐ๋ณต ์ํ
- ํ๋ จ ๋ฐ์ดํฐ์ ์ต์ ํ๋ w์ b๊ฐ์ ์ป์ ์ ์๋ค.
- f(e)๋ sigmoidํจ์์ ํด๋น, e๋ ๊ฐ ๋ท์ผ๋ก๋ถํฐ ์
๋ ฅ๊ณผ ๊ฐ์ค์น์ ๊ณฑ์ ์ดํฉ
2.3.2 Backpropagation ๊ฐ๋
์ดํด
- ์ฐธ๊ณ ์๋ฃ
- ์ ๊ฒฝ๋ง ๋ณ์๋ฅผ ์ฐพ๊ธฐ ์ํ ์ข์ ๋ฐฉ๋ฒ
- ๊ฐ ๋
ธ๋๊ฐ ์ต์ข
๊ฒฐ๊ณผ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ์ ์ ์์
- ๋
ธ๋์ ์
๋ ฅ๋๋ ๊ฐ์ ๋ํ ์ต์ข
๊ฒฐ๊ณผ์ ๋ฏธ๋ถ
- ๋
ธ๋์ ๊ฐ์ด ๋ณํ์๋ ์ต์ข
๊ฒฐ๊ณผ๊ฐ ์ผ๋ง๋ ๋ณํํ๋์ง๋ฅผ Backpropagation์ ํตํด ๊ตฌํจ.
- ํธ๋ฏธ๋ถ์ ์ ๋ฌํ๊ณ ์ค๋ฅธ์ชฝ์์ ์ผ์ชฝ์ผ๋ก ๊ฐ์ ์ ๋ฌ
- ์ค๊ฐ๊น์ง ๊ตฌํ ๋ฏธ๋ถ ๊ฒฐ๊ณผ๋ฅผ ๊ณต์ ํ ์ ์์ด์ ๋ค์์ ๋ฏธ๋ถ์ ํจ์จ์ ์ผ๋ก ๊ฒ๋
- ๊ฐ ๋ณ์์ ๋ฏธ๋ถ์ ํจ์จ์ ์ผ๋ก ๊ตฌํ ์ ์๋ค.
- ๋ค์์ ์ค๋ gradients์ local gradient๋ฅผ ๊ณฑํ๋ ๊ฒ์ผ๋ก ํด์
cf.์ฐธ๊ณ
- Chain Rule
- ์ฐ์ ๋ฒ์น
- ํฉ์ฑํจ์์ ๋ฏธ๋ถ์ ๋ํ ์ฑ์ง์ด๋ฉฐ, ํฉ์ฑ ํจ์์ ๋ฏธ๋ถ์ ํฉ์ฑ ํจ์๋ฅผ ๊ตฌ์ฑํ๋ ๊ฐ ํจ์์ ๋ฏธ๋ถ์ ๊ณฑ์ผ๋ก ๋ํ๋ผ ์ ์๋ค.
- ์ ) z=(x+y)2์์
ย โxโzโ = ย โtโzโย โxโtโ๋ก ๋ํ๋ผ ์ ์๋ค.
์ฐ์๋ฒ์น์ ์จ์ ย โxโzโ๋ฅผ ๊ตฌํ๋ฉด
ย โtโzโ = 2t
ย โxโtโ = 1
์ต์ข
์ ์ผ๋ก ๊ตฌํ๊ณ ์ถ์ ย โxโzโ ๋ ๋ ๋ฏธ๋ถ์ ๊ณฑํด ๊ณ์ฐ
ย โxโzโ = ย โtโzโย โxโtโ = 2tโ1=2(x+y)
2.3.3 backpropagation์ ๊ณ์ฐ ์ ์ฐจ
- ๋
ธ๋๋ก ๋ค์ด์จ ์
๋ ฅ ์ ํธ์ ๊ทธ ๋
ธ๋์ ํธ๋ฏธ๋ถ์ ๊ณฑํ ํ ๋ค์ ๋
ธ๋๋ก ์ ๋ฌ
- โz์ โt๋ ์ ๋ถ ์๊ฑฐ ๋์ด 'x์ ๋ํ z์ ๋ฏธ๋ถ์ด ๋จ.
- bckpropagation๊ณผ chain rule์ ์๋ฆฌ๊ฐ ๊ฐ์
2.3.4 backpropagation์ ํต์ฌ์ ์ฐ์๋ฒ์น์ ์๋ฆฌ๋ก ์ค๋ช
- backpropagarion์ ๊ณ์ฐ ์ ์ฐจ๋ ์ ํธ E์ ๋
ธ๋์ ํธ๋ฏธ๋ถย โxโyโ์ ๊ณฑํ ํ ๋ค์ ๋
ธ๋๋ก ์ ๋ฌ.
- ๋ฏธ๋ถ๊ฐ์ ํจ์จ์ ์ผ๋ก ๊ตฌํํ ์ ์๋ค.
2.3.5 Gate์ ์ข
๋ฅ
- gate๋ค์ gradient๊ด์ ์์ ๋ณด๋ฉด distributor, router, switcher๋ก ์๊ฐ
- add๋ x+y๋ก
- ๋ฏธ๋ถํด๋ณด๋ฉด x๋ฐฉํฅ์ด๋ , y๋ฐฉํฅ์ผ๋ก๋ 1
- ํฉ์ฑํจ์ ๊ผด๋ก ๋ํ๋์๋ ๋ค์์ ์ค๋ gradient๋ฅผ ์์ผ๋ก ๊ทธ๋๋ก ์ ๋ฌํ๋ ๊ผด
- distributor๋ก ํด์
- max๋ router์ธ๋ฐ, max(x,y)์ธ๋ฐ, ์ด ๋์ค ํ ๊ฐ๋ง
- x๊ฐ ์ปค์ x๊ฐ computational graph์์ forwarding๋์๋ค๊ณ ํ๋ฉด, ๊ฒฐ๊ตญ x์์ฒด๋ง ๋ค์ ์ํฅ์ ๋ผ์น๊ฒ์ด๋ฏ๋ก ๋ค์์ ์ค๋ gradient๊ฐ x๋ฐฉํฅ์ผ๋ก๋ง backwarding
- backpropagation ์
์ฅ์์ ๋ณด๋ฉด ์ฌ๋ฌ path์ค ํ๋์ path๋ก๋ง backwardingํ๋ ๊ฒ
- router
- mul gate
- xy์ผ๋ x๋ฐฉํฅ์ผ๋ก ๋ค์ด๊ฐ๋ gradient๋ y๊ฐ ๊ณฑํด์ ธ์ ๋ค์ด๊ฐ
ํ์ค ์ด์ผ๊ธฐ
- ํ์ต์ํจ ํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅธ ์ค์ฐจ๊ฐ์ ๋ค์ ๋ค๋ก ์ ํํด๊ฐ๋ฉด์ ๊ฐ ๋
ธ๋๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ณ์๋ค์ ๊ฐฑ์ ํ๋ ๊ฒ
- ๋ค์์ ์ค๋ gradients์ local gradient๋ฅผ ๊ณฑํ๋ ๊ฒ
2.6 Step #03 : Vectorized Operations & Jacobian Matrix
Gradient๊ฐ ํ๋๊ฐ ์๋ ์ฌ๋ฌ ๊ฐ์ธ vector ๊ณต๊ฐ์์ backpropagation์?
2.6.1 gradient๊ฐ Jacobian matrix๊ฐ ๋๋ ๊ฒ
- ๋ค๋ฅธ ๊ณ์ฐ์ ๊ทธ๋๋ก
ํ์ค ์ด์ผ๊ธฐ
- ๋ฏธ์ ์์ญ์์ โ๋น์ ํ ๋ณํโ์ โ์ ํ ๋ณํ์ผ๋ก ๊ทผ์ฌโ ์ํจ ๊ฒ
- Vector์ ๋ํ backpropagation์ gradient๊ฐ Jacobian Matrix๊ฐ ๋จ
2.7 Step #04 : Summary
2.8 ์ง๊ธ๊น์ง ์ด์ ๋ฆฌ
- ์ ๊ฒฝ๋ง์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ํธ๋ค๋งํ๋ ๊ฒ์...ใ
ใ
- ๋
ธ๋์ ๋ฐฉํฅ์ ์๋ค๋ก ๊ฒ์ฆํ ๋ ๊ทธ๋ํ๋ฅผ ์ ์ง์์ผ์ผ..
2.9 Step #05 : Neural Network
- ์ง๊ธ๊น์ง Linear score funtion ์ ๊ณต๋ถํ๋ค.
- ์ด์ ๋ 2-layer Neural Network๋ฅผ ์ฌ์ฉํ๋ค.
f=W2โmax(0,W1โx) ๊ฐ์
์ด๊ฒ์ด 3layer๋ก -> f=W3โmax(0,W2โmax(0,W1โx))
๋ค์ํ ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ธ๊ฐ์ ์ ๊ฒฝ๋ง์ ๋ฐ๋ผ๊ฐ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋ ๋ค.
ํ์ค ์ด์ผ๊ธฐ
- ์๋ฌผํ์ ๋ด๋ฐ์ ์ธ๊ณต ์ ๊ฒฝ๋ง๋ณด๋ค ๋ณต์กํ ๊ตฌ์กฐ๋ก ์ธ๊ณต์ ๊ฒฝ๋ง๊ณผ ์ผ๋์ผ ๋์์ ์๋๋ค.