๐ก ์ต์ ํ์ ๋ํ ๋ง์ ์ฉ์ด๊ฐ ์๊ธฐ๋๋ฐ ์ฉ์ด์ ๋ช
ํํ ์ดํด๊ฐ ์๋ค๋ฉด ๋ค๋ก ๊ฐ์๋ก ํฐ ์คํด๊ฐ ์์ผ ์ ์๋ค
Gradient Descent
- ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ต์๊ฐ์ ์ฐพ๊ธฐ์ํ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ
Important Concepts in Optimization
Generalization( ์ผ๋ฐํ )
- ํ์ต๋ ๋ชจ๋ธ์ ๋ณด์ด์ง ์๋ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ์ ์ํํ ๊ฒ์ธ๊ฐ?
- ๋ง์ ๊ฒฝ์ฐ์ ์ฐ๋ฆฌ๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๋ ๊ฒ์ด ๋ชฉํ์ด๋ค
- Training error๊ฐ 0์ด ๋์๋คํด์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ต์ ํ ๊ฐ์ ๋๋ฌํ๋ค๊ณ ๋ณด์ฅํ ์ ์๋ค
- ์ผ๋ฐ์ ์ผ๋ก Training error๊ฐ ์ค์ด๋ค์ง๋ง ์๊ฐ์ด ์ง๋ ์๋ก Test error( ํ์ตํ์ง ์๋ ๋ฐ์ดํฐ )๊ฐ ์ฆ๊ฐํ๋ค
- ๋ฐ๋ผ์ Generalization gap์ด ์ฆ๊ฐํ๊ฒ ๋๋ค
- Test error์ Training error ์์ ์ฐจ
- ํ์ต๋ฐ์ดํฐ์ ์ฑ๋ฅ ์์ฒด๊ฐ ์ ์ข์ ๋๋ Generalization performance๊ฐ ์ข๋ค๊ณ ํด์ Test performance๊ฐ ์ข๋ค๊ณ ํ ์ ์๋ค
Underfitting vs Overfitting
Underfitting
- ํ์ต๋ฐ์ดํฐ์ ๋ํด์ ์ ๋์ํ์ง ๋ชปํ๋ ๊ฒ
Overfitting
- ํ์ต๋ฐ์ดํฐ์ ๋ํด์ ์ ๋์ํ์ง๋ง Test data์ ๋ํด์ ์ ๋์ํ์ง ์๋ ๊ฒ
Cross-Validation ( ๊ต์ฐจ ๊ฒ์ฆ )
- K for validation์ด๋ผ๊ณ ๋ ํ๋ค
- train data์ validation data๋ฅผ k๊ฐ๋ก ๋๋ ์ k-1๊ฐ๋ก ํ์ต์ ์ํค๊ณ ๋๋จธ์ง 1๊ฐ๋ก test๋ฅผ ํด๋ณด๋ ๊ฒ
- Cross-validation์ ํตํด hyperparameter๋ฅผ ์ฐพ๋๋ค
- test validation์ ํ์ฉํด Cross-validation ํ๊ฑฐ๋, hyperparameter๋ฅผ ์ฐพ์ ์ ์๋ค
Bias and Variance
- ๋น์ฉ์ ์ต์ํ ํ๋ ค ํ ๋ bias2, variance, noise** ์ ํตํด ์๋ํด ๋ณผ ์์๋ค
- ํ์ต๋ฐ์ดํฐ์ ๋
ธ์ด์ฆ๊ฐ ๊ปด์๋ค๊ณ ๊ฐ์ ํ์ ๋
- tradeoff : ๊ฐ ํ๋๊ฐ ์์์ง๋ฉด ๋ค๋ฅธ ๊ฐ ํ๋๊ฐ ์ปค์ง๊ฒ ๋๋ค
- t : target
- fโ : neural network ์ถ๋ ฅ ๊ฐ
- cost๋ฅผ minimize ํ๋ คํ๋ฉด bias, variance, noise๋ฅผ ์ค์ฌ์ผํ๋๋ฐ ๋์์ ์ค์ผ ์ ์๋ค
- bias๋ฅผ ์ค์ด๋ฉด variance๊ฐ ๋์์ง๊ณ , variance๋ฅผ ์ค์ด๋ฉด bias๊ฐ ๋์์ง ํ๋ฅ ์ด ํฌ๋ค
Boostrapping
- ๋๋ค ์ํ๋ง์ ์์กดํ๋ test ๋๋ metric
- ํ์ต๋ฐ์ดํฐ๊ฐ ๊ณ ์ ๋์ด ์์ ๋ ๊ทธ ์์์ sub sampling์ ํตํด ํ์ต๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ๊ฐ ๋ง๋ ๋ค
- ์ด๋ฅผ ํตํด ์ฌ๋ฌ ๋ชจ๋ธ, metric์ ๋ง๋ ๋ค
Bagging vs Boosting
Bagging( Bootstrapping aggregating )
- ์ฌ๋ฌ ๋ชจ๋ธ๋ค์ด Bootstrapping์ผ๋ก ํ์ต๋๊ณ ์๋ค
- ํ์ต๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ๊ฐ ๋ง๋ค์ด ์ฌ๋ฌ ๋ชจ๋ธ์ ํตํด ์ถ๋ ฅ๊ฐ์ ํ๊ท ์ ๋ด๋ ๊ฒ ( ์์๋ธ )
Boosting
- ๋ถ๋ฅํ๊ธฐ ์ด๋ ค์ด ํน์ ํ๋ จ ์ํ์ ์ค์ ์ ๋๋ค
- ๊ฐํ ๋ชจ๋ธ( strong model )์ ๊ฐ ํ์ต์๊ฐ ์ด์ ์ฝํ ํ์ต์( weak learner )์ ์ค์์์ ๋ฐฐ์ฐ๋ ์ฝํ ํ์ต์๋ฅผ ์์๋๋ก ๊ฒฐํฉํ์ฌ ๊ตฌ์ถ๋๋ค
- ์ฌ๋ฌ๊ฐ์ weak learner๋ฅผ ํตํด ํ๋์ strong model์ ๋ง๋ ๋ค
Gradient Descent Methods
Stochastic gradient descent
- ๋จ์ผ ์ํ์์ ๊ณ์ฐ๋ ๊ฐ์ค์น๋ก ์
๋ฐ์ดํธ
Mini-batch gradient descent
- subset data๋ฅผ ํตํด ๊ณ์ฐ๋ ๊ฐ์ค์น๋ก ์
๋ฐ์ดํธ
Batch gradient descent
- ์ ์ฒด ๋ฐ์ดํฐ์์ ๊ณ์ฐ๋ ๊ฐ์ค์น๋ก ์
๋ฐ์ดํธ
- Stochastic gradient descent
- Momentum
- Nesterov accelerated gradient
- Adagrad
- Adadelta
- RMSprop
- Adam
Batch-size Matters
Regularization
- Earlystopping
- Parameternormpenalty
- Dataaugmentation
- Noiserobustness
- Labelsmoothing
- Dropout
- Batchnormalization