๐ ์ผ๋ผ์ค ์ฐฝ์์์๊ฒ ๋ฐฐ์ฐ๋ ๋ฅ๋ฌ๋ (ํ๋์์ ์๋ , ๋ฐํด์ , ๊ธธ๋ฒ) ์ฐธ๊ณ
ํจ์ํ ๋ชจ๋ธ์ ํ์ต ์๋ฆฌ๋ ์ด์ ํฌ์คํ ์์ ์ค๋ช ํ Gradient Descent์ด๋ค. Parameter Update๋ฅผ ํ๊ธฐ ์ํด ๊ฐ ํ๋ผ๋ฏธํฐ๋ค์ ํธ๋ฏธ๋ถ๊ฐ์ ๊ตฌํด์ ๋นผ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ์งํํ์๋ค. ํ์ง๋ง Parameter ๊ฐ์๊ฐ 100๋ง๊ฐ ์ด์์ผ๋ก ๊ต์ฅํ ๋ง์ ๊ฒฝ์ฐ ์์น๋ฏธ๋ถ์ผ๋ก ๊ณ์ฐํ๋ ๊ฒ์ด ๊ฐ๋ฅํ ๊น?
์ด์ ํฌ์คํ ์์๋ ์ธ๊ธํ๋ฏ ์ค์ ์ ๊ฒฝ๋ง์์๋ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๊ฐ ์์ฒ ๊ฐ๋ณด๋ค ์ ์ ๊ฒฝ์ฐ๊ฐ ๊ฑฐ์ ์์ผ๋ฉฐ ์์ฒ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋ ๊ฒฝ์ฐ๋ ์ข ์ข ์๋ค. Hidden Layer์ ์, Node์ ๊ฐ์ ๋ฑ์ ์ํฅ์ ๋ฐ์ ๊ฐ์๊ฐ ์ฆ๊ฐํ๋ ๊ฒ์ด๋ค. Parameter์ ์๋ Model Capacity์ ์ํฅ์ ์ค๋ค. ํ์ง๋ง ํ๋ผ๋ฏธํฐ์ ๊ฐ์๊ฐ ์ฆ๊ฐํ๋ฉด ํ์ต์๊ฐ์ ์ํฅ์ ์ค ๊ฒ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์์น๋ฏธ๋ถ์ ํ์ง ์๊ณ ๋ฏธ๋ถ ๊ฐ์ ์ป์ ์๋ ์์๊น?
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ ์์์ฒ๋ผ ๊ฐ๋จํ ํจ์๋ค์ ํฉ์ฑ ํจ์๋ก ๋ณผ ์ ์๋ค. ์ฆ, ๊ฐ๋จํ ํจ์๋ค์ด ์ค์ฒฉ๋ ํํ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ฐ๋ฆฌ๋ ์ฐ์ ๋ฒ์น์ ์ ์ฉํ ์ ์๋ค.
Chain Rule, ๋ฏธ๋ถ์ ์ฐ์ ๋ฒ์น์ด๋ ํฉ์ฑ ํจ์์ ๋ฏธ๋ถ์ ํฉ์ฑ ํจ์๋ฅผ ๊ตฌ์ฑํ๋ ๊ฐ๋ณ ํจ์ ๋ฏธ๋ถ์ ๊ณฑ์ผ๋ก ๋ํ๋ผ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
์์ ๊ฐ์ ๊ตฌ์กฐ์ ์ ๊ฒฝ๋ง์ด ์์ ๋ ์ฐ์ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ ๋ฐฉํฅ์ผ๋ก(Forward) ์ฐ์ฐ์ ํ๋ฉฐ Cost, ์ค์ฐจ๊ฐ์ ๊ณ์ฐํ๋ค.
n3 ๋ ธ๋๋ฅผ ํ๋ํด๋ณด๋ฉด ์ด๋ฐ ๊ตฌ์กฐ๋ก ๋ํ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ W21์ ์ ๋ฐ์ดํธํ์ ๋ ์ค์ฐจ๊ฐ์ด ์ผ๋ง๋ ๊ฐ์ํ ์ง ์๊ณ ์ถ๋ค. ์ด๊ฒ์ ์๋์ ๊ฐ์ ์์์ผ๋ก ํํํ ์ ์๋ค.
์ด ์์์ ์ฐ์ ๋ฒ์น์ ํ์ฉํ์ฌ ํ๋ฉด ์ค์ฐจ๊ฐ ยท ์ถ๋ ฅ๊ฐ(1-์ถ๋ ฅ๊ฐ) ยท ์ ๋ ฅ๊ฐ์ ํํ๋ก ๋ํ๋ผ ์ ์๋ค. ์ฆ, ๋ฏธ๋ถ ์ฐ์ฐ์ ํ์ง ์๊ณ Forward Propagation ๊ฒฐ๊ณผ๋ง์ผ๋ก ๋ฏธ๋ถ ๊ฐ์ ์ป์ ์ ์๋ ๊ฒ์ด๋ค.
๋ฏธ๋ถ์ ํ์ง ์๊ณ ์ค์ฐจ๊ฐ, ์ถ๋ ฅ๊ฐ, ์ ๋ ฅ๊ฐ์ ์ด์ฉํด์ ๊ฐ์ค์น๋ฅผ ์์ ๊ฐ์ ์์ ํตํด ์ ๋ฐ์ดํธ ํ ์ ์๋ค.
์์น ๋ฏธ๋ถ์ ๊ณ์ฐํ๋ ๊ฒ์ ๋ง์ ์ปดํจํ ์์ ๋ฐ ์๊ฐ์ด ์์๋๊ธฐ ๋๋ฌธ์ ์ด์ ๊ฐ์ด ๋ฏธ๋ถ์ ํ์ง ์๊ณ Forward Propagation์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ฌํ๋ฉฐ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ฅผ ํ๋ ๋ฐฉ๋ฒ์ด ๋ฐ๋ก Backpropagation, ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ฐ๋ฆฌ๋ hidden layer๋ node์ ์๊ฐ ์ฆ๊ฐํ์ฌ๋ ํ์ต ์๋์ ์ํฅ์ ๋ฐ์ง ์๊ณ ํ์ตํ ์ ์๋ค.