๊ณต๋ถํ๋ฉด์ ๋ง์ฃผํ ๋ด์ฉ๋ค์ ์์ฝ ๋ฐ ์ ๋ฆฌ๋ฅผ ํตํด ๋ค์ํ ์ฌ๋๋ค์๊ฒ ๊ณต์ ํ๊ณ ๊ณต์ ๋ฅผ ํ๋ฉด์ ์ค๊ฐ๋ ํน์ ๊ฐ๋ ์ ๋ฆฌ๋ฅผ ํ๊ธฐ ์ํจ์ ๋๋ค. ๋ง์ด ํผ๋๋ฐฑํด ์ฃผ์๊ณ ๋นํํด ์ฃผ์ญ์์ค.
๐ซ Gradient Descent : ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
๋ฏธ๋ถ๊ฐ์ด ๊ทน์๊ฐ ๋๋ ๋ฐฉํฅ์ ์ฐพ์ ๊ทน์๊ฐ์ ์ฐพ๋๋ค.์ฌ๊ธฐ์ ๋ฏธ๋ถ์ ๋์์ด ๋๋ ๊ฒ์ 'W'์ฆ Neural Network์ ํ๋ผ๋ฏธํฐ์ด๊ณ Loss(์ค์ ๊ฐ-์์ธก๊ฐ)์์ ํธ๋ฏธ๋ถ์ ํ๊ฒ ๋ฉ๋๋ค.
์์๊ณผ ๊ฐ์ด t+1์์ ์ผ๋ก ์งํํ๊ธฐ ์ํด -๋ฅผ ๋ถ์ฌ ์ฐ์ฐ์ ํ๊ฒ ๋๋๋ฐ ์ด๋ ๊ทน์๊ฐ์ ๋๋ฌํ๊ธฐ ์ํด์ ์ ๋๋ค. (๋ตํ๋ Learning_Rate์ ๋ปํฉ๋๋ค.)
๐ Optimization : ๊ธฐ์ด์๋ฆฌ๋ก Gradient Descent๋ฅผ ๋ฐ๋ผ๊ฐ๋๋ค. ํด๋น ๋ถ๋ถ์ด ๋ฐ์ ๋๋ฉด์ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ด ์ถ๊ฐ๋๋ค๋ ๊ฒ์ผ๋ก ๋งฅ๋ฝ์ ์ก์๊ฐ๋ฉด ์ข์ต๋๋ค.
๐กOptimization์ ๋ฐฉ๋ฒ๋ก ์ ํ์ฅํ๊ณ ์ ํ๋ค๋ฉด ์ด๋ค ์ ๋ค์ ๊ณ ๋ คํด์ผํ ๊น? Optimization์ key Concepts์ ๋ณด๋ฉฐ ์ดํดํด๋ณด์.
๐ Unseen data(test data)์ ์ฑ๋ฅ๊ณผ train data์ ์ฑ๋ฅ์ ์ฐจ์ด๋ฅผ ๋งํฉ๋๋ค.
์ด๋ฌํ ์ฐจ์ด๊ฐ ํด์๋ก ๊ณผ์ ํฉ(Over-fitting)์ด ์ฐ๋ ค ๋๊ธฐ์ Early Stopping์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค. -> (Early Stopping์ ๊ฐ๋ ๋ณด๋ค ๊ตฌํ์ด ๋ ์ค์ํ ๊ฒ ๊ฐ์ ์ถํ ํฌ์คํ ํ๊ฒ ์ต๋๋ค. 22๋ 10์ 5์ผ)
๐fitting์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ชจ๋ธ์ ์ค์ ํ๋ ๊ฒ์ด๋ค.
ํ์ง๋ง ๋ชจ๋ธ ํ์ต์ ๋ชฉํ๋ ํ์ต ๋ฐ์ดํฐ์์๋ง ์ ์ ์ฉ๋๋ ๊ฒ์ด ์๋๋ผ ๋ฒ์ฉ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ง๋ค์ด ์ถ์ด ํ๋ค.
๋ฐ๋ผ์ ํ์ต ๋ชฉํ๋ฅผ ์ด๋ฃจ๊ธฐ ์ํด 2๊ฐ์ง ๊ฐ๋ ์ ์ ์ดํดํด์ผํ๋ค.
๐ Bias :ํธํฅ, Variance : ํผ์ ธ์๋ ์ ๋
๐ก Cost = bias + variance + noise๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์ bias๊ฐ ๊ฐ์ํ๋ฉด variance๊ฐ ์ด์ ๋ง์ถฐ ์ฆ๊ฐํ๊ณ ๋ฐ๋๋ก variance๊ฐ ๊ฐ์ํ๋ฉด bias๊ฐ ์ฆ๊ฐํ๋ trad_off๊ฐ ์๋ค.
๐ก์์๋ธ(Ensemble) ๊ธฐ๋ฒ์ ์ผ์ข , ์์๋ธ์ด๋? : ์ฌ๋ฌ๊ฐ์ ์์ธก ๋ชจํ์ ๊ฒฐํฉํ์ฌ '์ง๋จ์ง์ฑ'์ ํจ๊ณผ๋ฅผ ๋ํ๋ธ๋ค.
(cf.์ด์ฐํ ๋ฐ์ดํฐ : Voting, ์ฐ์ํ ๋ฐ์ดํฐ : AVG์ ๋ํ์ ์ธ ๊ฒฐํฉ๋ฐฉ์์ผ๋ก ์ ํํ๋ค.)
๋ด์ฉ์ด ๋ง๊ณ ์ง๊ด์ ์ธ ์ด์ ๋ฅผ ์ํด ์ด ๋ํ ๋ฐ๋ก ํฌ์คํ ์ ํ๊ฒ ์ต๋๋ค. (10์ 5์ผ ๊ธฐ์ค)
๐ Bagging : random subsampling์ผ๋ก ์ฌ๋ฌ ๋ชจ๋ธ์ ํ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋๋ ๋ณ๋ ฌ ์์ ๋ค ํฉ์น๋ ๊ณผ์
๐ boosting : weak learner๋ฅผ ๋ถํ ํ ์ง๋ ฌ ๋ฐฉ์์ผ๋ก ์์ธกํ ๊ฒฐ๊ณผ๋ฌผ๋ก ๋ค์ ์์ธกํจ.
์ถ์ฒ : https://ybeaning.tistory.com/17
๐ Flat minimizer&sharp minimizer
On Large-batch Training for Deep Learning: Generalization Gap and Sharp Minima์์๋ ์์ ์ค๋ช ํ Large- Batch-size์ ๋ํด ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ์ต๋๋ค.
Deep Learning์ ๋ฐ์ดํฐ๋ฅผ ๋ฌถ์๋จ์(Batch)๋ก ํ์ตํด grad๊ฐ์ ๊ฐฑ์ ํฉ๋๋ค. ์ด๋ Weight๊ฐ์ ๊ฐฑ์ ํด์ฃผ๊ฒ ๋ฉ๋๋ค. ํ์ง๋ง ๋ฌถ์๋จ์(Batch)๊ฐ ํฌ๋ค๋ ๊ฒ์ grad์ ๊ฐ์ด ํฌ๋ค๋ ๊ฒ์ด๊ณ ์ด๋ ์ฆ Step ๊ทน์๊ฐ๋๋ฌ์ ๋๋ step์ด ํฌ๋ค๋ ๊ฒ์ ๋ปํฉ๋๋ค.(Slope๊ฐ ์ปค์ง๋ค.) ์ด๋ฅผ Sharp minimizer๋ผ๊ณ ํจ.
SB : small-Batch_size, LB : Large_Batch_size
์๋ฌ๊ฐ ๋์ผํ ์ํฉ์์ ๊ฐ๊ฐ์ ํ๋ณธ ๊ณต๊ฐ์ ํ์ํ ๊ฒ์ธ๋ฐ LB์์ ํ๋ณธ๊ณต๊ฐ์ ํฌ๊ธฐ๊ฐ ์์ฒญ๋ ๊ฒ์ ์ ์ ์๊ณ ์์ธก๊ฐ์ ๋ํ ๋ณ๋์ด ํฌ๋ค๋ ๊ฒ์ ์ ์ถํ ์ ์๋ค.