
๋ฅ๋ฌ๋์ ์ ๋ง ๊ฐ๋ ฅํ ๋๊ตฌ์ง๋ง, ์ธ์ ๋ ์ ๋ต์ ์๋๋ค.
CNN์ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ถ์ผ์์ ํฐ ์ฑ๊ณต์ ๊ฑฐ๋๊ณ , ํ์ฌ๋ ์๋ฃ ์ง๋จ ๋ถ์ผ๋ก๋ ํ์ฅ ์คRNN์ ์์ฑ ๋ชจ๋ธ๋ง, ๊ธฐ๊ณ ๋ฒ์ญ, ์๊ณ์ด ์์ธก ๋ถ์ผ์์ ์ฃผ๋ก ์ฌ์ฉ๋จ์ ํธ-๋-์ก์๋น(signal-to-noise ratio) ๊ฐ ๋์ ๊ฒฝ์ฐ๋น์ ํ์ผ ๊ฒฝ์ฐ)์์๋ ๋จ์ํ ๋ชจ๋ธ์ด ๋ ๋์ ์ ์๋ค์์
NYSE ๋ฐ์ดํฐ: AR(5) ๋ชจ๋ธ์ด RNN๋งํผ ์ ์๋ํจ (ํจ์ฌ ๋จ์ํจ)
IMDB ๋ฆฌ๋ทฐ: glmnet์ผ๋ก ํ์ตํ ์ ํ ๋ชจ๋ธ์ด RNN๋ณด๋ค ์ฑ๋ฅ์ด ์ข์๊ณ , ํด์๋ ์ฌ์
์ ๊ฒฝ๋ง ํ์ต์ ๋น์ ํ, ๋น๋ณผ๋ก(non-convex) ๋ฌธ์ ๋ผ ์ต์ ํ๊ฐ ์ด๋ ต๋ค.
Local minimum์ ํผํด์ Global minimum์ ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋ค. ๊ฐ 1์ฐจ์์ด ์๋์ด ์ฐพ๊ธฐ ํ๋ ๋์ ๋ค
์ ๊ฒฝ๋ง ํ์ต์ ์ด๋ฐ
๋ณต์กํ ์์ค ์งํ์์์ ์ต์ ํ๊ฐ ์ด๋ค์ง๋ค.
์๋ฒฝํ ํด๋ ์ด๋ ค์ธ ์ ์์ง๋ง,์ข์ ์์์ +์ข์ ์๊ณ ๋ฆฌ์ฆ(SGD, Adam) ์ผ๋ก๋ ๊ฝค ๊ด์ฐฎ์ ์ฑ๋ฅ์ ๋๋ฌํ ์ ์๋ค!
์ ๊ฒฝ๋ง ํ์ต์ ๋ณดํต ๊ฒฝ์ฌํ๊ฐ๋ฒ(Gradient Descent) ์ ํตํด ์์ค ํจ์๋ฅผ ์ต์ํํ๋ค.
๊ธฐ์ธ๊ธฐ(gradient) ๋ฒกํฐ ๊ณ์ฐ:
์ ๋ฐ์ดํธ ๊ท์น:
๋ก์ปฌ ์ต์๊ฐ์ ๋จธ๋ฌผ ์ ์์์์น๊ฐ ์กฐ๊ธ๋ง ๋ฌ๋๋ค๋ฉด ๋ค๋ฅธ ์ต์์ ์ ๋๋ฌํ์ ๊ฒ๊ณ ์ฐจ์์์๋ ์ด ํ์์ด ๋ ๋ณต์กํด์ง (์ง๊ด์ ์ผ๋ก ํ์
ํ๊ธฐ ์ด๋ ค์)Gradient Descent๋ "๋ด๋ฆฌ๋ง๊ธธ์ ๋ฐ๋ผ ๋ด๋ ค๊ฐ๋ค"๋ ์์ฃผ ์ง๊ด์ ์ธ ์๋ฆฌ๋ก ์๋ํ๋ค.
์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๊ณ , ๊ทธ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์กฐ๊ธ์ฉ ์ด๋ํ๋ฉฐ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์๊ฐ๋ค.
์ ์ฒด ์์ค:
์ถ๋ ฅ์ธต ๊ณ์์ ๋ํ ๋ฏธ๋ถ:
์๋์ธต ๊ฐ์ค์น์ ๋ํ ๋ฏธ๋ถ:
- Backpropagation์ ์ฒด์ธ ๋ฃฐ์ ํ์ฉํด์ ์ถ๋ ฅ์ธต โ ์๋์ธต โ ์ ๋ ฅ์ธต์ผ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ํํจ
- ๊ณ์ฐ๋์ ์ค์ด๊ณ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ์ค๊ณ๋ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
- ๋ฅ๋ฌ๋์ด ๊ฐ๋ฅํด์ง ๊ธฐ์ ์ ๊ธฐ๋ฐ ์ค ํ๋
โ๏ธ ์์์ ๋ณต์กํด ๋ณด์ฌ๋, ๊ฒฐ๊ตญ "์ค์ฐจ๋ฅผ ๊ฐ ์ธต์ผ๋ก ๋๋ ์ ์ฑ ์์ง๊ฒ ๋ง๋ ๋ค"๋ ๊ฒ ํต์ฌ!!
gradient ๊ณ์ฐ์ ๋๋ฆฌ๊ณ ๊ณ์ฐ๋์ด ๋ง๋คํ์ต๋ฅ (learning rate) ์ด ์์ ๊ฒฝ์ฐ, ์๋ ด ์๋๊ฐ ๋ ๋๋ ค์ง๐ก SGD์ ์์ด๋์ด
์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ฐ์ง ์๊ณ ,
๋๋คํ ์์ ๋ฌถ์(minibatch)๋ง์ผ๋ก๋ gradient๋ฅผ ๊ทผ์ฌํ๋ค!!
๊ณผ์ ํฉ์ ๋ง๋ ์ ๊ทํ ๊ธฐ๋ฒ์ผ๋ก ํ์ฉ ๊ฐ๋ฅโ SGD๋ ๋น ๋ฅด๊ณ , ์ผ๋ฐํ ์ฑ๋ฅ๋ ์ข๋ค.
์ฌ๊ธฐ์ Early Stopping ๊ฐ์ ์ ๋ต๊น์ง ๋ํ๋ฉด, ๋ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํด์ง๋ค.
Dropout์ ํ์ต ์ค ๋งค๋ฒ ์ผ๋ถ ๋ด๋ฐ์ ํ๋ฅ ๋ก ๋๋คํ๊ฒ ์ ๊ฑฐ(drop)ํ๋ ๋ฐฉ์์ด๋ค.
์ ๊ฑฐ๋ ๋ด๋ฐ์ ์ ์ธํ๊ณ ํ์ตํ๋ฉฐ, ๋จ์ ๋ด๋ฐ์ ์ถ๋ ฅ์ ๋งํผ ์ค์ผ์ผ์
ํ์ฌ ๋ณด์ ํ๋ค.
์ด๋ฐ ๋ฐฉ์์ ๊ณผ์ ํฉ์ ๋ง๊ณ , ๋งค๋ฒ ๋ค๋ฅธ ์๋ธ ๋คํธ์ํฌ๋ฅผ ํ์ตํ๋ ํจ๊ณผ๋ฅผ ๋ง๋ค์ด ์์๋ธ ํ์ต๊ณผ ์ ์ฌํ๋ค.
์ ํ ํ๊ท์ฒ๋ผ ๋จ์ํ ๋ชจ๋ธ์์๋ ๋ฆฟ์ง ์ ๊ทํ(ridge) ์ ์ ์ฌํ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋ฉฐ,
๋๋ค ํฌ๋ ์คํธ์ฒ๋ผ ์ผ๋ถ ์
๋ ฅ์ ๋๋คํ๊ฒ ์ ๊ฑฐํ๋ ๋ฐฉ์๊ณผ๋ ๋น์ทํ๋ค.
๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๋์์, ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊น์ง ํฅ์์ํค๋ ๋๋ํ ์ ๋ต
๋ฐ์ดํฐ ์ฆ๊ฐ(data augmentation) ์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋ณํํด ๋ ๋ง์ ํ์ต ์ํ์ ๋ง๋๋ ๊ธฐ๋ฒ์ด๋ค.CNN + SGD ์กฐํฉ์์ ํจ๊ณผ๊ฐ ํฌ๋ฉฐ, ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์์ฃผ ์ฐ์ธ๋ค.Dropout์ฒ๋ผ ๊ณผ์ ํฉ์ ๋ง๊ณ , ridge ์ ๊ทํ์ ์ ์ฌํ ํจ๊ณผ๋ฅผ ์คBias-Variance Trade-offํธํฅ(bias) ์ ์ค๊ณ , ๋ถ์ฐ(variance) ์ ์ปค์งU์ ํํ๋ก ๋ํ๋จ โ ๋๋ฌด ๋จ์ํด๋, ๋๋ฌด ๋ณต์กํด๋ ์ ์ข๋ค0๊น์ง ๊ฐ์์๋ฌ ๊ณก์ ์ด ํ ๋ฒ ๊บพ์๋ค๊ฐ ๋ค์ ๋ด๋ ค๊ฐ๋ "W์ ๋ชจ์" ์ ๋ณด์ด๋ ๊ฒ
์ฒซ ๋ฒ์งธ ๋์ผํธ: ์ ํต์ ์ธ bias-variance ๊ณก์
๋ ๋ฒ์งธ ๋์ผํธ: ๊ณผ์ ํฉ์ ๋ซ๊ณ , ๋ ํฐ ๋ชจ๋ธ์ด ์คํ๋ ค ๋ ์ ์ผ๋ฐํํ๋ ์์ญ
์ ๊ฒฝ๋ง์ ๋ณต์กํ ๊ตฌ์กฐ์์๋ ๊ณผ์ ํฉ๋์ง ์๊ณ , ์คํ๋ ค ํ๋ จ ์ค์ฐจ 0์ด ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ข์ ๋๋ ์๋ค
๋ฐ์ดํฐ ์์ฑ:
ํ๋ จ ๋ฐ์ดํฐ: 20๊ฐ / ํ ์คํธ ๋ฐ์ดํฐ: 10,000๊ฐ
๋ชจ๋ธ: ์์ฐ ์คํ๋ผ์ธ(natural spline)์ ์ฌ์ฉํ ์ ํ ํ๊ท
: ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ ํํ ๋ง์ถค (์์ฐจ = 0), ํด๋ ์ ์ผ
: ์ฌ์ ํ ์์ฐจ๋ 0์ด์ง๋ง, ํด๋ ์ฌ๋ฌ ๊ฐ โ ๊ทธ์ค ๊ฐ ๊ฐ์ฅ ์์ ํด(minimum norm solution)๋ฅผ ์ ํ
๋ณต์ก๋๊ฐ ๋์ด๋ ํด์
norm์ด ์์์ง๋ฉด์, ์คํ๋ ค ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ค์ ์ข์์ง๋double descentํ์์ด ๋ํ๋๋ค!
์์๋ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ ํํ ๋ง์ถ๋ zero-residual ํด๋ฅผ ์ป๊ธฐ ๋นก๋นกํจ
์์๋ ํด๊ฐ ๋ง์์ง๋ฏ๋ก, ๋ ๋งค๋๋ฝ๊ณ ๋ ์๋์น๋(wiggly) ํด ์ค ์ด ๊ฐ์ฅ ์์ ํด(minimum norm) ๋ฅผ ์ ํํ ์ ์์
์์ ๋๊ฐ ๋ ๋์์๋ก, ๋์ผํ๊ฒ ์์ฐจ 0์ ์ ์งํ๋ฉด์๋ ๋ ๋ถ๋๋ฌ์ด ํจ์๋ฅผ ์ ํํ ์ ์๊ฒ ๋๋ค!
๋์ ์ ํ ๋ชจ๋ธ์์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ๊ณ ๋ฐ์ดํฐ๊ฐ ๋ง์ ๋, ์์ ์คํ ํฌ๊ธฐ์ SGD๋ ์์ฐจ 0์ด๋ฉด์ ์ต์ norm์ ๊ฐ๋ ํด๋ก ์๋ ดํ๋ค.
์ด๋์ SGD ๊ฒฝ๋ก(stochastic gradient flow) ๋ ๋ฆฟ์ง ํ๊ท ํด์ ๊ฒฝ๋ก์ ์ ์ฌํ ์ฑ์ง์ ๊ฐ์ง๋ค.
์ด์ ์ ์ฌํ๊ฒ, ๋ฅํ๊ณ ๋์ ์ ๊ฒฝ๋ง๋ SGD๋ก ์์ฐจ 0๊น์ง ํ์ตํ์ ๋ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ํด๋ฅผ ์ฐพ์ ์ ์๋ค.
ํนํ ์ด๋ฏธ์ง ๋ถ๋ฅ์ฒ๋ผ ์ ํธ-๋-์ก์๋น๊ฐ ๋์ ๋ฌธ์ ์์๋ ๊ณผ์ ํฉ ์ํ์ด ๋ฎ๊ณ , ์์ฐจ 0์ธ ํด๊ฐ ์ค์ ๋ก ์๋ฏธ ์๋ ์ ํธ๋ฅผ ์ ํฌ์ฐฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.