3์ฃผ์ฐจ ํ์์ผ
- ์ต์ ํ ๊ธฐ๋ฒ
- ์ ๊ทํ ๊ธฐ๋ฒ
์ผ๋ฐํ ์ฑ๋ฅ : ํ์ต ๊ฒฐ๊ณผ์ ํ
์คํธ ๊ฒฐ๊ณผ ์ฌ์ด์ ์ฐจ์ด (Generalization gap)
๋ณดํต ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋์ ์๋ก ์ข์ง๋ง ์๋ ๊ทธ๋ฆผ์ฒ๋ผ ๋ชจ๋ธ ์์ฒด๊ฐ ํ์ต ๋ฐ์ดํฐ์์๋ ์๋ง์ธ ๊ฒฝ์ฐ์๋ generalization gap์ด ์์ง๋ง ๊ฒฐ๊ณผ์ ์ผ๋ก๋ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง๋ ๋ชจ๋ธ์ผ ์๋ ์๋ค.
์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ค๊ฐ ์๋๋ค!
Underfitting (๊ณผ์์ ํฉ) : ํ์ต์ ์ถฉ๋ถํ ํ์ง ๋ชปํ๊ฑฐ๋ ์๋ชป๋ ์ค๊ณ ๋ฑ์ผ๋ก ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ก๋ถํฐ ํน์ฑ์ ๋ค ๋ฝ์๋ด์ง ๋ชปํ ์ํ
Overfitting (๊ณผ๋์ ํฉ) : ๋ชจ๋ธ์ด ์ฃผ์ด์ง ๋ฐ์ดํฐ์
์ ์ง๋์น๊ฒ ๋ง์ด ํ์ตํด์ ์
๋ ฅ ๋ฐ์ดํฐ์ ๋ฑ ๋ง๊ฒ ์ ์ฐฉ๋์ด ๋ฒ๋ฆฐ ์ํ ๊ณจ๋ผ๋ณด๋ผ๊ณ ๋ฐ์ดํฐ ๊ฑด๋ค์ฃผ๋ ์์๋ฅผ ์ธ์ ๋ฒ๋ ธ๋ค
๊ณผ๋์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด์๋ ํ์ต์
๊ณผ ํ
์คํธ์
์ ์ฒ ์ ํ ๋ถ๋ฆฌํ๊ณ , ์ฌ๋ฌ ๊ฐ์ง ์ ๊ทํ(regularization) ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ฑฐ๋ k๊ฒน ๊ต์ฐจ ๊ฒ์ฆ์ ์คํํ๋ค.
Batch size : ๊ฐ์ค์น์ ๋ฐ์ด์ด์ค๋ฅผ 1ํ ์ ๋ฐ์ดํธํ ๋๋ง๋ค ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ์ฌ์ฉํ๋ ค๋ฉด ์ฐ์ฐ๋์ด ๋๋ฌด ๋ง๊ณ ๋นํจ์จ์ ์ด๋ผ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๋ณ์ข ์ธ SGD๋ mini-batch SGD์ด ๋ฑ์ฅํ๋ค. ์ด๋ค ์๊ณ ๋ฆฌ์ฆ์์๋ ๊ฐ์ค์น๋ฅผ 1ํ ์ ๋ฐ์ดํธํ ๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ผ๋ถ๋ง ์ฌ์ฉํ๋ค. ์ด ๋ '์ผ๋ถ ๋ฐ์ดํฐ'์ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ์ด batch size๋ค.
๋ชจ๋ธ์ ํ์ต์ํฌ ๋๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด์ฉํด์ ์์ค ํจ์๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ค์น์ ๋ฐ์ด์ด์ค๋ฅผ ์
๋ฐ์ดํธํ๋ค(์ต์ ์ ๊ฐ์ค์น์ ๋ฐ์ด์ด์ค๋ฅผ ์ฐพ๋ ๊ฒ).
ํ์ง๋ง ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ์์๋ ์๋ ด ์๋๊ฐ ๋๋ฆฌ๊ณ ๊ทน์(local minima)์ ๋น ์ง ์ํ์ด ์์ด์ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํ ์ฌ๋ฌ ๊ฐ์ง ์ต์ ํ ๊ธฐ๋ฒ๋ค์ด ๋ฑ์ฅํ๋ค.
GD, SGD
์๋ก์ด ๊ฐ์ค์น W_t+1์ ์ด์ ๊ฐ์ค์น W_t์์ gradient์ ๐(ํ์ต์จ)์ ๊ณฑํด ๋นผ ์ค ๊ฒ๊ณผ ๊ฐ๋ค.
(ํจ์๊ฐ์์ ๋ฏธ๋ถ๊ฐ์ ๋นผ ์ฃผ๋ฉด ๊ฐ์ด ๋ฌด์กฐ๊ฑด ๊ฐ์ํ๋ค. ์ด๊ฑฐ ์ฐธ๊ณ .)
Momentum
local minima์ ๋น ์ง๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด gradient๊ฐ ๊ฐ์ํ๋ ๋ฐฉํฅ์ ์ ์งํ๋ค. a ํญ์ด ๋ง์น ๊ด์ฑ์ฒ๋ผ ์์ฉํด์ ๊ทน์๊ฐ์ ๋๋ฌํ๋๋ผ๋ ๋ค์ ์คํ
์์๋ ์ด๋ํ๋ ๋ฐฉํฅ์ ์ ์งํ๋ฉฐ ๊ทน์๋ฅผ ์ง๋์ณ์ ์กฐ๊ธ ๋ ๊ฐ๊ฒ ๋๋ค. ์ด๊ฒ์ด ์ฅ์ ์ด์ ๋จ์ ์ผ๋ก ์์ฉํ๋๋ฐ, ๊ทน์์ ๋ ๋น ์ง์ง๋ง ์๋ ด์ด ๋๋ฆฌ๋ค.
Nesterov Accelerated Momentum
Momentum์ ์กฐ๊ธ ๋ ๊ฐ์ ํ ๋ฐฉ๋ฒ์ผ๋ก, ์์ง ๊ฐ ๋ณด์ง ์์ ๋ค์ ์คํ
๋ฐฉํฅ์ผ๋ก ๋ฏธ๋ฆฌ ๊ฐ ๋ณด๊ณ ๊ทธ ์ง์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ ๋ค์ ๊ฐ์ค์น ์
๋ฐ์ดํธ์ ๋ฐ์ํ๋ค. Momentum๋ณด๋ค ์๋ ด์ด ๋น ๋ฅด๋ค.
Adagrad
Adaptive gradient ๋ฐฉ์์ผ๋ก, ํ์ต ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ํ๋ผ๋ฏธํฐ๋ฅผ ์
๋ฐ์ดํธํ ๋์ ์คํ
(ํ์ต์จ)์ด ๋ฌ๋ผ์ง๋ค. G_t๋ ๋ชจ๋ gradient ์ ๊ณฑ์ ๋์ ํฉ์ผ๋ก, G_t๊ฐ ๋ถ๋ชจ์ ์๊ธฐ ๋๋ฌธ์ gradient๊ฐ ์ฒ์ ๊ฐ์ ๋นํด ๋ง์ด ๋ณํ์ผ๋ฉด ๊ทธ์ ๋ฐ๋น๋กํด์ ํ์ต ์คํ
์ด ์์์ง๋ค.
๋ฌธ์ ๋ ํ์ต ํ์๊ฐ ์์ฃผ ๋ง์์ G_t๊ฐ ๋ถ์ ๐์ ๋นํด ๋ฌดํ๋์ ๊ฐ๊น๊ฒ ์ปค์ง ๊ฒฝ์ฐ
์์/๋ฌดํ๋ ๊ผด์ด ๋์ด ๋์ด์ ๊ฐ์ค์น๊ฐ ์
๋ฐ์ดํธ๋์ง ์๋๋ค๋ ๊ฒ์ด๋ค.
Adadelta
Adagrad์ ๋ฌธ์ ์ ์ ๊ฐ์ ํ ๋ฐฉ์์ผ๋ก, G_t๊ฐ ๋ฌดํํ ์ปค์ง๋ ๊ฒ์ ๋ง๊ธฐ ์ํด ์ง์ ์ด๋ ํ๊ท ์ ์ฌ์ฉํ์ฌ accumulation window๋ฅผ ์ ํํ๋ค. ๋ฐ๋ผ์ Adadelta์์์ G_t๋ window ๋ฒ์ ์์์ ๊ณ์ฐ๋ n๊ฐ์ gradient ์ ๊ณฑ์ ๋์ ํฉ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
Adadelta์ ์์ ์ดํด๋ณด๋ฉด ํ์ต์จ ๐๊ฐ ์๋๋ฐ, ๋ถ์์ H_t term์ด ํ์ต์จ ์ญํ ์ ํ๋ค. G_t๊ฐ gradient์ ๋ณํ์จ์ ๋ํ ์ ๋ณด์๋ค๋ฉด H_t๋ ๊ฐ์ค์น W์ ๋ณํ์จ์ ๋ํ ์ ๋ณด๋ค. ํ์ต ์ด๊ธฐ์๋ ๊ฐ์ค์น๊ฐ ๋ง์ด ๋ณํ๊ณ ํ์ต์ด ์งํ๋ ์๋ก ๊ฐ์ค์น๊ฐ ์ต์ ํ๋์ด ๋ณํ๋์ด ์์ ๊ฒ์ด๋ค. ๊ฐ์ค์น๊ฐ ์ต์ ํ๋์ด๊ฐ ๋ ํ์ต ์คํ
์ด ํฌ๋ฉด ์คํ๋ ค ์ด์ํ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ ์๋ ด์ด ๋๋ ค์ง ์ ์๊ธฐ ๋๋ฌธ์ ๊ฐ์ค์น์ ๋ณํ๋(H term)์ ๋น๋กํ์ฌ ํ์ต ์คํ
์ Adaptiveํ๊ฒ ์ค์ ํ๋ ๊ฒ์ด๋ค.
Adadelta์ ๋ฌธ์ ๋ GPT-3์ฒ๋ผ ์์ฃผ์์ฃผ์์ฃผ์์ฃผ ํฐ ๋ชจ๋ธ์ ์ฒ๋ฆฌํ๊ธฐ ํ๋ค๋ค๋ ๊ฒ์ด๋ค. ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ธ ๊ฒฝ์ฐ ์์ฒญ๋ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ window ํฌ๊ธฐ๋งํผ ๋ค๊ณ ๋ค๋
์ผ ํ๋ค. ์ง์์ด๋ํ๊ท ์ ์ทจํ๋ ์ด์ ๊ฐ ์ด ๋ถ๋ด์ ์ข ๋๊ธฐ ์ํด์๋ผ๊ณ ํ๋ค.
์ด ๋ถ๋ถ์ ๋
ผ๋ฌธ์ ์ฝ์ด ๋ด์ผ ํ ๊ฒ ๊ฐ๋ค.
RMSProp
์ ํ๋ฆฌ ํํผ์ ๊ฐ์์์ ๋์จ ๋ฐฉ๋ฒ์ผ๋ก, Adagrad์ ์ง์์ด๋ํ๊ท ์ ์ ์ฉํ์ฌ ๊ฐ์ ํ ๋ฐฉ์์ด๋ค.
Adam
Adaptive Momentum Estimation์ ์ฝ์ด๋ก, ์๋ Ada~ ์๋ฆฌ์ฆ๋ค. Adaptive ๊ณ์ด์ Gradient ์ ๊ณฑ์ ์ง์์ด๋ํ๊ท ์ทจํ๊ธฐ ๋ฐฉ์๊ณผ Momentum์ ๊ฒฐํฉํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. Gradient^2์ ํฌ๊ธฐ์ ๋ฐ๋ผ ํ์ต์จ์ adaptiveํ๊ฒ ๋ฐ๊พธ๋ฉฐ ์ด์ ์ Gradient ์ ๋ณด(momentum)๋ ์ฌ์ฉํ๋ค. ํ์ต ์๋๋ ๋น ๋ฅด๊ณ ์๋ ด๋ ์ ๋๋ค! ์์ฆ์ ์ฌ๋งํ๋ฉด ์ด๊ฑธ ์ด๋ค.
๋ชจ๋ธ์ด ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ(overfitting)๋์ง ์๋๋ก ํด ์ฃผ๋ ๋ค์ํ ๋ฐฉ๋ฒ์ด ์๋ค.
Noise robustness
์
๋ ฅ ๋ฐ์ดํฐ์ ๊ฐ์ค์น์ ๋๋คํ๊ฒ ๋
ธ์ด์ฆ๋ฅผ ์ฝ๊ฐ ์๋ ๊ฒ. ์ํ์ ์ผ๋ก๋ ์์ง ์ฆ๋ช
๋์ง ์์ ๊ฒ ๊ฐ์๋ฐ ์คํ์ ์ผ๋ก ์ ๋๋ค๊ณ ํ๋ค...
Lable smoothing
๋ถ๋ฅ ๋ฌธ์ ๋ฑ์์ ๋ ์ด๋ธ์ 0/1๋ก ๋๋๋ ๊ฒ ์๋๋ผ ์ข๋ ๋ถ๋๋ฝ๊ฒ ๋ง๋๋ ๊ฒ์ ๋งํ๋ค. ์ ๊ธฐํ๊ฒ๋ ์ฑ๋ฅ์ด ์ ๋์จ๋ค.
Dropout
ํ์ต ๊ณผ์ ์์ ์ผ๋ถ ๋
ธ๋์ ์ถ๋ ฅ์ 0์ผ๋ก ๋ง๋ ๋ค. Noise robustness ๋ฐฉ๋ฒ๊ณผ ๋น์ทํ๊ฒ ๋
ธ์ด์ฆ ์๋ ํ๊ฒฝ์์ ํ์ตํด์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ค.
๊ฐํ๊ฒ ํค์ฐ๋...?
๊ฐ๋ฅํ๋ฉด ์ง์ ๋ ํผ์ด ์ธ์ ์๊ฐ์ ์ ์งํ๋ ๋ฐฉํฅ์ผ๋ก 2์์ ๋ชจ์ด๊ธฐ๋ก ํ๋ค. 2์์ ๋ง๋๋ฉด ๋น์ผ ๊ฐ์๋ ๋ค ์ํํ์ง ๋ชปํ ์ํ๊ธฐ ๋๋ฌธ์, 2์์ ๋ชจ์ด๋ ๋ชจ์ฌ์ ์ ๋ ๊ณต๋ถํ ๋ด์ฉ์ ๋ํด ์ด์ผ๊ธฐํ๊ธฐ๋ก ํ๋ค. ํ์ ์ค ํ ๋ถ์ด ์ด์ ๊ฐ์์ ํฌํจ๋์ด ์๋ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ๋ํ ์ธ๋ฏธ๋๋ฅผ ๊ฐ๋จํ ํด ์ฃผ์ จ๋๋ฐ, ๋ฑ ์กฐ๊ฑด๋ถ ํ๋ฅ ๊น์ง๋ง ์์๋ค์๋ค. ๋๋ฌด ๊ธฐ์ด์ ์ธ ์ง๋ฌธ์ด๋ผ ์ง๋ฌธ ์ ํ๊ณ ์์๋๋ฐ ์ธ๋ฏธ๋ ๋๋๊ณ ๋์ ํ์๋ค์ด ์ ๋ง ์ฌ์ด ์ง๋ฌธ์ด๋ผ๋ ์ผ๋ง๋ ์ง ๋ฌผ์ด๋ด๋ ๋๋ค๊ณ ๊ฒฉ๋ คํด ์ค์ ๋ด์ผ๋ถํฐ๋ ์ธ๋ฏธ๋์์ ๋งํ๋ ๋ถ๋ถ์ด ์์ผ๋ฉด ๋ฐ๋ก ๋ฌผ์ด๋ณด๊ธฐ๋ก ํ๋ค.
์ฝ์ ์ธ๋ฏธ๋๊ฐ ๋๋๊ณ ๋์ ์ค๋ ๊ฐ์ ์ด์ผ๊ธฐ๋ ์ข ํ๋๋ฐ, ์ฃผ์ ๊ฐ MLP์์ ํ ๋ ์ด์ด์ ์ถ๋ ฅ์ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋๊ฐ? ๋ก ํ๋ฌ๊ฐ๋ค. ๋ด๊ฐ ์ค๋ช ํ ์ ์๋ ๋ถ๋ถ์ ์ค๋ช ํ๊ณ ๋ค๋ฅธ ํ์์ ๋ถ์ฐ ์ค๋ช ์ ๋ฃ๊ธฐ๋ ํ๋ฉด์ ์๊ฐ์ด ์ ๋ฆฌ๋๋ ๊ฒ์ ๋๊ผ๋ค.
ํด๋น ๋ด์ฉ์ ์ ๋ฆฌํ์๋ฉด,
์๊ณ ๋ ์์์ง๋ง ํ๋๋ก ๋ชจ์ผ์ง ๋ชปํ๊ณ ์ฌ๊ธฐ์ ๊ธฐ ํฉ์ด์ ธ ์๋ ์ฌ์ค๋ค์ด ์ฐ๊ฒฐ๋๋ ๋๋์ด ์ข์๋ค.