๋ณธ ๊ธ์ Hierachical Structure์ ๊ธ์ฐ๊ธฐ ๋ฐฉ์์ผ๋ก, ๊ธ์ ์ ์ฒด์ ์ธ ๋งฅ๋ฝ์ ํ์ ํ๊ธฐ ์ฝ๋๋ก ์์ฑ๋์์ต๋๋ค.
๋ํ ๋ณธ ๊ธ์ CSF(Curation Service for Facilitation)๋ก ์ธ์ฉ๋(์ฐธ์กฐ๋) ๋ชจ๋ ์ถ์ฒ๋ ์๋ตํฉ๋๋ค.
Velog | Lecture | Description | Video | Slide | Pages |
---|---|---|---|---|---|
์์ฑ์ค | Lecture01 | Introduction to Convolutional Neural Networks for Visual Recognition | video | slide | subtitle |
์์ฑ์ค | Lecture02 | Image Classification | video | slide | subtitle |
์์ฑ์ค | Lecture03 | Loss Functions and Optimization | video | slide | subtitle |
์๋ฃ | Lecture04 | Introduction to Neural Networks | video | slide | subtitle |
์๋ฃ | Lecture05 | Convolutional Neural Networks | video | slide | subtitle |
์๋ฃ | Lecture06 | Training Neural Networks I | video | slide | subtitle |
์๋ฃ | Lecture07 | Training Neural Networks II | video | slide | subtitle |
์์ฑ์ค | Lecture08 | Deep Learning Software | video | slide | subtitle |
์์ฑ์ค | Lecture09 | CNN Architectures | video | slide | subtitle |
์์ฑ์ค | Lecture10 | Recurrent Neural Networks | video | slide | subtitle |
์์ฑ์ค | Lecture11 | Detection and Segmentation | video | slide | subtitle |
์์ฑ์ค | Lecture12 | Visualizing and Understanding | video | slide | subtitle |
์์ฑ์ค | Lecture13 | Generative Models | video | slide | subtitle |
์์ฑ์ค | Lecture14 | Deep Reinforcement Learning | video | slide | subtitle |
์์ฑ์ค | Lecture15 | Invited Talk: Song Han Efficient Methods and Hardware for Deep Learning | video | slide | subtitle |
์์ฑ์ค | Lecture16 | Invited Talk: Ian Goodfellow Adversarial Examples and Adversarial Training | video | slide | subtitle |
Q1. ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ ์ ํด์ผ ํ๋๊ฐ
Q2. Training ํ ๋ ์ ์ํ ์ฌํญ
Q3. ํ๊ฐ๋ ์ด๋ป๊ฒ ํ ๊ฒ์ธ๊ฐ.
- Gradient๊ฐ 0์ด ๋๋ ๊ฒ์ด ๋ฌธ์ ๊ฐ ๋๋ ์ด์
- Chain Rule ๊ณผ์ ์ ์๊ฐํ์ ๋, Global gradient๊ฐ์ด 0์ด ๋๋ฉด ์ฆ ๊ฒฐ๊ณผ ๊ฐ์ด 0์ด ๋๋ฉด local gradient ๊ฐ๋ 0์ด ๋๋ค. ๋ฐ๋ผ์ Input์ ์๋ gradient ๊ฐ์ ๊ตฌํ ์ ์๋ค.
- ์์ ์ค์ฌ์ด ์๋ ๊ฒ์ด ๋ฌธ์ ๊ฐ ๋๋ ์ด์
- output์ ๊ฐ์ด ํญ์ ์์๋ฉด ๋ค์ input์ผ๋ก ๋ค์ด๊ฐ์ ๋๋ ํญ์ ์์์ด๊ฒ ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ค์ layer์์ ์ ๊ฐ์ updateํ ๋ ํญ์ ๊ฐ์ ๋ฐฉํฅ์ผ๋ก update๊ฐ ๋๋ค. ๋ค์ ๊ทธ๋ฆผ์ ์๋ก ์ค๋ช ํ๋ฉด ์ฐ๋ฆฌ๊ฐ ์ํ๋ vector๊ฐ ํ๋์์ผ ๋, ์ ๊ฐ์ ๊ฒฝ์ฐ ์ 1์ฌ๋ถ๋ฉด๊ณผ ์ 3์ฌ๋ถ๋ฉด์ผ๋ก update๊ฐ ๋๊ธฐ ๋๋ฌธ์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ฐฉํฅ์ผ๋ก update๋ฅผ ํ๊ธฐ ํ๋ค๋ค.
๋ง์ฝ unit gaussian activation์ ์ํ๋ฉด ๊ทธ๋ ๊ฒ ์ง์ ๋ง๋ค์ด๋ณด์!
ํ์ฌ Batch์์ ๊ณ์ฐํ mean๊ณผ variance๋ฅผ ์ด์ฉํ์ฌ ์ ๊ทํ๋ฅผ ํด์ฃผ๋ ๊ณผ์ ์ Model์ ์ถ๊ฐํด์ฃผ๋ ๊ฒ์ด๋ค.
๊ฐ layer์์ Weight๊ฐ ์ง์์ ์ผ๋ก ๊ณฑํด์ ธ์ ์๊ธฐ๋ Bad Scaling์ ํจ๊ณผ๋ฅผ ์์์ํฌ ์ ์๋ค.
ํ์ง๋ง unit gaussian์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ๊ฒ์ด ๋ฌด์กฐ๊ฑด ์ข์ ๊ฒ ์ธ๊ฐ? ์ด์ ์ ์ฐ์ฑ์ ๋ถ์ฌ์ฃผ๊ธฐ ์ํด ๋ถ์ฐ๊ณผ ํ๊ท ์ ์ด์ฉํด Normalized๋ฅผ ์ข ๋ ์ ์ฐํ๊ฒ ํ ์ ์๊ฒ ํ๋ค.
Batch Normalization์ ํน์ง์ ์ดํด๋ณด๋ฉด
- Regularization์ ์ญํ ๋ ํ ์ ์๋ค. (Overfitting์ ๋ฐฉ์งํ ์ ์๋ค.)
- weight์ ์ด๊ธฐํ ์์กด์ฑ์ ๋ํ ๋ฌธ์ ๋ ์ค์๋ค.
- Testํ ๋ ๋ฏธ๋๋ฐฐ์น์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ๊ตฌํ ์ ์์ผ๋ Trainingํ๋ฉด์ ๊ตฌํ ํ๊ท ์ ์ด๋ํ๊ท ์ ์ด์ฉํด ๊ณ ์ ๋ Mean๊ณผ Std๋ฅผ ์ฌ์ฉํ๋ค.
- ํ์ต ์๋๋ฅผ ๊ฐ์ ํ ์ ์๋ค.
์ฒซ๋ฒ์งธ๋ก ๊ณ ๋ ค์ผ ํ ์ฌํญ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด๋ค.
๋๋ฒ์งธ๋ก๋ ์ด๋ค architecture๋ฅผ ์ ํํด์ผ ํ๋ ๊ฒ์ธ์ง ๊ณจ๋ผ์ผ ํ๋ค.
๊ทธ๋ ๋ค๋ฉด ์ด์ ๊ฐ์ค์น๊ฐ ์์ ๊ฐ์ผ ๋ loss๊ฐ์ด ์ด๋ป๊ฒ ๋ถํฌํ๋์ง ์ดํด๋ด์ผ ํ๋ค.
์ฐ์ training data๋ฅผ ์ ๊ฒ ์ก๊ณ loss์ ๊ฐ์ด ์ ๋๋ก ๋จ์ด์ง๋์ง ํ๋ฒ ์ดํด๋ณด์.
์ฌ๋ฌ Hyperparameter๋ค์ด ์๋๋ฐ ๊ทธ ์ค ๊ฐ์ฅ ๋จผ์ ๊ณ ๋ ค์ผ ํด์ผํ๋ ๊ฒ์ Learning rate์ด๋ค.
training ๊ณผ์ ์์ cost๊ฐ ์ค์ด๋ค์ง ์์ผ๋ฉด Learning rate๊ฐ ๋๋ฌด ์์์ง ์์ฌ์ ํ๋ฒ ํด๋ณด์.
๋จ, activation function์ด softmax์ธ ๊ฒฝ์ฐ ๊ฐ์ค์น๋ ์์ํ ๋ณํ์ง๋ง accurancy๊ฐ์ ๊ฐ์๊ธฐ ์ฆ๊ฐํ ์ ์๋๋ฐ ์ด๊ฒ์ ์ณ์ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ํ๊ณ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
cost๊ฐ์ด ๋๋ฌด ์ปค์ ๋ฐ์ฐํ๋ค๋ฉด, Learning rate๊ฐ ๋๋ฌด ํฐ์ง ์์ฌ์ ํ๋ฒ ํด๋ณด๊ณ ๊ณ์ํด์ ๊ฐ์ ์กฐ์ ํด์ผ ํ๋ค.
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ง๋ค ๋, ๊ณ ๋ คํด์ผ ํ Hyperparameter๋ค์ด ์ ๋ง ๋ง๋ค.
๋ณดํต training set์ผ๋ก ํ์ต์ ์ํค๊ณ validation set์ผ๋ก ํ๊ฐ๋ฅผ ํ๋ค.
๋ง์ฝ Hyperparameter๋ฅผ ๋ฐ๊ฟจ๋๋ฐ update๋ cost์ ๊ฐ์ด ์๋ cost์ ๊ฐ๋ณด๋ค 3๋ฐฐ ์ด์ ๋น ๋ฅด๊ฒ ์ฆ๊ฐํ ๊ฒฝ์ฐ ๋ค๋ฅธ parameter๋ฅผ ํ ๋ฒ ์จ๋ณด์.
Hyperparameter์ ๊ฐ์ ์ฌ๋ฌ ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์ณ์ ์ ํ๋ ๊ฒ๋ ํ๋์ ๋ฐฉ๋ฒ์ด์ง๋ง, ์๊ฐ์ด ์๋ค๋ฉด ์ด๋ฌํ ๋ฐฉ๋ฒ์ผ๋ก hyperparameter๋ฅผ ์ฐพ๋ ๊ฒ์ด ํ๊ณ๊ฐ ์๋ค.
๋ฐ๋ผ์ Grid Search vs Random Serach ๋๊ฐ์ง ๋ฐฉ๋ฒ์ด ์ ์๋์๋ค.
- Grid Search๋ ํ์์ ๋์์ด ๋๋ ํน์ ๊ตฌ๊ฐ ๋ด์ ํ๋ณด hyperparameter ๊ฐ๋ค์ ์ผ์ ํ ๊ฐ๊ฒฉ์ ๋๊ณ ์ ์ ํ์ฌ, ์ด๋ค ๊ฐ๊ฐ์ ๋ํ์ฌ ์ธก์ ํ ์ฑ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ ๋ค, ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ hyperparameter ๊ฐ์ ์ ์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- ๋ฐ๋ฉด Random Search๋ Grid Search์ ํฐ ๋งฅ๋ฝ์ ์ ์ฌํ๋, ํ์ ๋์ ๊ตฌ๊ฐ ๋ด์ ํ๋ณด hyperparameter ๊ฐ๋ค์ ๋๋ค ์ํ๋ง(sampling)์ ํตํด ์ ์ ํ๋ค๋ ์ ์ด ๋ค๋ฅด๋ค. Random Search๋ Grid Search์ ๋นํด ๋ถํ์ํ ๋ฐ๋ณต ์ํ ํ์๋ฅผ ๋ํญ ์ค์ด๋ฉด์, ๋์์ ์ ํด์ง ๊ฐ๊ฒฉ(grid) ์ฌ์ด์ ์์นํ ๊ฐ๋ค์ ๋ํด์๋ ํ๋ฅ ์ ์ผ๋ก ํ์์ด ๊ฐ๋ฅํ๋ฏ๋ก, ์ต์ hyperparameter ๊ฐ์ ๋ ๋นจ๋ฆฌ ์ฐพ์ ์ ์๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๋ค.
๋ฐ๋ผ์ ์ค์ ๋ก๋ random search๊ฐ ๋ ์ข์ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๋ ค์ ธ ์๋ค.
์ค์ ๋ก Hyperparameter Optimization๋ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ผ๋ก ์ผ์ด๋๋ค.
1. Hyperparameter ๊ฐ์ ์ค์ ํ๋ค.
2. 1์์ ์ ํ ๋ฒ์ ๋ด์์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ๋ฌด์์๋ก ์ถ์ถํ๋ค.
3. ๊ฒ์ฆ ๋ฐ์ดํฐ(Validation Set)์ ์ด์ฉํ์ฌ ํ๊ฐํ๋ค.
4. ํน์ ํ์๋ฅผ ๋ฐ๋ณตํ์ฌ ๊ทธ ์ ํ๋๋ฅผ ๋ณด๊ณ Hyperparameter ๋ฒ์๋ฅผ ์ขํ๋ค.
Hyperparameter๋ฅผ ์ ํ ๋ loss curve๋ฅผ ๋ณด๊ณ ์ด hyperparameter๊ฐ ์ ํฉํ์ง ์๋์ง ํ๊ฐ๋ฅผ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
๋ง์ฝ loss curve๊ฐ ์ด๊ธฐ์ ํํํ๋ค๋ฉด ์ด๊ธฐํ๊ฐ ์๋ชป๋ ๊ฐ๋ฅ์ฑ์ด ํด ๊ฒ์ด๋ค.
๊ทธ๋ฆฌ๊ณ training accuracy์ validation accuracy๊ฐ gap์ด ํด ๊ฒฝ์ฐ overfitting์ด ๋ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ๋์ ๊ฒ์ด๋ค.
๊ทธ gap์ด ์์ ๊ฒฝ์ฐ model capacity๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ๊ณ ๋ คํด๋ด์ผ ํ๋ค. ์ฆ, trainingํ dataset์ด ๋๋ฌด ์์ ๊ฒฝ์ฐ์ผ ์๋ ์๋ค.
Mini batch ์์ ์๋ data์ loss๋ฅผ ๊ณ์ฐ
Gradient์ ๋ฐ๋ ๋ฐฉํฅ์ ์ด์ฉํ์ฌ update๋ฅผ ํ๋ค.
1๋ฒ๊ณผ 2๋ฒ ๊ณผ์ ์ ๊ณ์ํด์ ๋ฐ๋ณตํ๋ค.
ํ์ง๋ง SGD Algorithm์๋ ๋ฌธ์ ์ ์ด ์กด์ฌํ๋๋ฐ,
์ด๋ ๊ฒ ๋ถ๊ท ํํ ๋ฐฉํฅ์ด ์กด์ฌํ๋ค๋ฉด SGD๋ ์ ๋์ํ์ง ์๋๋ค.
์ต์๊ฐ์ด ๋ ์๋๋ฐ local minima์ ๋น ์ ธ์ ๋์ค์ง ๋ชปํ๊ฑฐ๋,
๊ธฐ์ธ๊ธฐ๊ฐ ์๋งํ ๊ตฌ๊ฐ์์ update๊ฐ ์ ์ด๋ฃจ์ด์ง์ง ์์ ์ ์๋ค.
๊ทธ๋ฆผ์ฒ๋ผ ๊ผฌ๋ถ๊ผฌ๋ถํ ํํ๋ก gradient ๊ฐ์ด update ๋ ์ ์๋ค.
์์ ๊ฐ์ ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด์ Momentum์ด๋ผ๋ ๊ฐ๋ ์ ๋์ ํ๋ค.
Momentum์ด๋ ์๊ธฐ๊ฐ ๊ฐ๊ณ ์ ํ๋ ๋ฐฉํฅ์ ์๋๋ฅผ ์ ์งํ๋ฉด์ gradient update๋ฅผ ์งํํ๋ ๊ฒ์ ๋งํ๋ค.
๊ธฐ์กด์ SGD, SGD+Momentum, Nesterov์ ๊ฒฐ๊ณผ๊ฐ์ ํ ๋ฒ ๋น๊ตํด๋ณด๋ฉด,
์ข ๋ Robustํ๊ฒ algorithm์ด ์๋ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
Velocity term ๋์ ์ grad squared term์ ์ด์ฉํ์ฌ
gradient๋ฅผ updateํ๋ ๋ฐฉ๋ฒ๋ ์ ์๋์๋๋ฐ,
์ด ๋ฐฉ๋ฒ์ AdaGrad๋ผ๊ณ ๋ถ๋ฅธ๋ค.
AdaGrad๋ ํ์ต๋ฅ ์ ํจ๊ณผ์ ์ผ๋ก ์ ํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ์ด๋ค.
grad squared term๋ฅผ ์ถ๊ฐํ๊ฒ ๋๋ฉด, ๊ฐ๊ฐ์ ๋งค๊ฐ๋ณ์์ ๋ง์ถคํ์ผ๋ก ๊ฐ์ ์ ํด์ค ์ ์๋ค.
์ด๋ฌํ ๋ฐฉ์์ผ๋ก update๋ฅผ ๊ณ์ ์งํํ๊ฒ ๋๋ฉด,
small dimension์์๋ ๊ฐ์๋๊ฐ ๋์ด๋๊ณ ,
large dimension์์๋ ๊ฐ์๋๊ฐ ์ค์ด๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
๊ทธ๋ฆฌ๊ณ ์๊ฐ์ด ์ง๋๋ฉด ์ง๋ ์๋ก step size๋ ์ ์ ๋ ์ค์ด๋ ๋ค.
์ด ๋ฐฉ๋ฒ์์ ๋ ํ๋๊ฐ ์ถ๊ฐ๊ฐ ๋์ด decay_rate๋ผ๋ ๋ณ์๋ฅผ ํตํด์
step์ ์๋ ๊ฐ / ๊ฐ์์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์ ์๋์๋๋ฐ,
์ด ๋ฐฉ๋ฒ์ RMSProp์ด๋ผ๊ณ ํ๋ค.
RMSProp๋ AdaGrad์ ๋จ์ ์ ๋ณด์ํ ๋ฐฉ๋ฒ์ด๋ค.
๊ณผ๊ฑฐ์ ๋ชจ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ท ์ผํ๊ฒ ๋ฐ์ํด์ฃผ๋ AdaGrad์ ๋ฌ๋ฆฌ,
RMSProp์ ์๋ก์ด ๊ธฐ์ธ๊ธฐ ์ ๋ณด์ ๋ํ์ฌ ๋ ํฌ๊ฒ ๋ฐ์ํ์ฌ update๋ฅผ ์งํํ๋ค.
์ ๋ง ์๋ง์ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ์ ์๋์๋๋ฐ,
์ด์ ๋์ค์ ์ผ๋ก ๋๋ฆฌ ์ฐ์ด๊ณ ์๋ Adam์ ๋ํด์ ์์๋ณด์.
Adam์ ์ฝ๊ฒ ์๊ฐํ๋ฉด momentum + adaGrad ๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
์ด๊ธฐํ๋ฅผ ์ ํด์ฃผ์ด์ผ ํ๊ธฐ ๋๋ฌธ์, bias correction์ ์ถ๊ฐํ์ฌ
์ด๊ธฐํ๊ฐ ์ ๋๋๋ก ์ค๊ณํด ์ฃผ์๋ค.
์์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ๋ฒ ๋น๊ต๋ฅผ ํด๋ณด๋ฉด,
-Adam์ด ์ ์ผ ๋์ค์ ์ผ๋ก ์ฐ์ธ๋ค๊ณ ํ๋๋ฐ
์ฌ๊ธฐ ๋ณด์ฌ์ค ์์ ์์๋ ์ข ๋ฉ~๋ฆฌ ๋์์ update๊ฐ ๋ ๊ฒ ๊ฐ๊ธดํ๋ค.
์ต์ ํ ๊ธฐ๋ฒ์ ์ํฉ์ ๋ฐ๋ผ ์ต์ ์ ์ต์ ํ ๊ธฐ๋ฒ์ด ๋ชจ๋ ๋ค๋ฅด๋ค!
์ง๊ธ๊น์ง ๋ณด์ฌ์ค ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์
๋ชจ๋ Learning rate๋ฅผ hyperparameter๋ก ๊ฐ์ง๊ณ ์๋ค.
Learning rate decay๋ ์์ง๋ง
์ฒ์์๋ ์๋ค๊ณ ์๊ฐํ๊ณ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ค๊ณํ ๋ค์,
๋์ค์ ๊ณ ๋ คํด์ฃผ๋๋ก ํ์.
์ผ์ฐจ ํจ์๋ก ๊ทผ์ฌํ๋ฅผ ์์ผ ์ต์ ํ๋ฅผ ์ํฌ ๋๋ ๋ฉ๋ฆฌ ๊ฐ ์ ์๋ค๋ ๋จ์ ์ด ์๋ค.
์ด์ฐจ ํจ์๋ก ๊ทผ์ฌํ๋ฅผ ์ํฌ๋๋ ์ฃผ๋ก ํ
์ผ๋ฌ ๊ธ์๋ฅผ ์ด์ฉํด์ ๊ทผ์ฌํ๋ฅผ ์ํจ๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ผ๋ก update๋ฅผ ์ํค๋ฉด ๊ธฐ๋ณธ์ ์ผ๋ก learning rate๋ฅผ ์ค์ ํด ์ฃผ์ง ์์๋ ๋๋ค๋ ์ฅ์ ์ด ์๋ค. (No Hyperparameters!)
ํ์ง๋ง ๋ณต์ก๋๊ฐ ๋๋ฌด ํฌ๋ค๋ ๋จ์ ์ด ์๋ค.
์ด์ฐจ ํจ์๋ก ๊ทผ์ฌํ ์ํค๋ ์ผ์ Quasi-Newton ๋ฐฉ๋ฒ์ผ๋ก
non-linearํ ์ต์ ํ ๋ฐฉ๋ฒ ์ค์ ํ๋์ด๋ค.
Newton methods๋ณด๋ค ๊ณ์ฐ๋์ด ์ ์ด ๋ง์ด ์ฐ์ด๊ณ ์๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ทธ ์ค ๊ฐ์ฅ ๋ง์ด ์ฐ๋ ์๊ณ ๋ฆฌ์ฆ์ BGFS์ L-BGFS์ด๋ค.
์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ๋ค์ full-batch์ผ ๋๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์,
Stochastic(ํ๋ฅ ๋ก ์ ) setting์ด ์ ์ ๊ฒฝ์ฐ ์ฌ์ฉํด ๋ณผ ์ ์๋ค.
์ง๊ธ๊น์ง ๋ฐฐ์ด ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋
Training ๊ณผ์ ์์ error๋ฅผ ์ค์ด๊ธฐ ์ํด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ค์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ํ ๋ฒ๋ ๋ณด์ง ๋ชปํ ๋ฐ์ดํฐ์์ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๊ธฐ ์ํด์๋ ์ด๋ป๊ฒ ํด์ผํ ๊น?
Regularization ๊ธฐ๋ฒ์ ์ค๋ช ํ๊ธฐ ์ ์, Model Ensembles์ ๋ํด์ ํ ๋ฒ ์ ๋ฆฌํ์.
Model Ensembles์ ๊ฐ๋จํ ๋งํ๋ฉด ๋ค์ํ ๋ชจ๋ธ๋ก train์ ์ํค๊ณ ,
test๋ฅผ ํ ๋ ๊ทธ ๊ฒ๋ค์ ์งฌ๋ฝ(?)ํด์ ์ฐ๋ ๊ฒ์ ๋งํ๋ค.
Test๋ฅผ ํ ๋, parameter vector๋ค์ Moving average๊ฐ์ ์ฌ์ฉํ์ฌ
test๋ฅผ ํ๋ ๋ฐฉ๋ฒ๋ ์๋ค. (Polyak averaging)
์ง๊ธ๊น์ง์ ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ Test๋ฅผ ํ๋๋ฐ ์ข์ ์ฑ๋ฅ์ ๋ด๊ธฐ ์ํด ๋ชจ๋ธ์ ์ข ๋ robustํ๊ฒ ๋ง๋ค๊ธฐ ์ํด์ ์ฌ์ฉํ๋ ๊ธฐ๋ฒ๋ค์ด๋ค.
๊ทธ๋ ๋ค๋ฉด single-model์ ์ฑ๋ฅ์ ์ข๊ฒ ํ๊ธฐ์ํด์ ์ด๋ค ๋ฐฉ๋ฒ์ ์ธ๊น?
๋ต์ Regularization์ด๋ค.
Regularization์ ๊ฐ๋จํ loss function์ ๊ตฌํํ ๋,
regularization์ ๋ํ function์ ์ถ๊ฐํด์ฃผ๊ธฐ๋ ํ๋ค.
๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก๋ dropout์ด๋ผ๋ ๊ธฐ๋ฒ๋ ์๋ค.
Dropout์ด ํจ๊ณผ๊ฐ ์๋ ์ด์ ๋ ๋ค์ํ feature๋ฅผ ์ด์ฉํ์ฌ ์์ธก์ ํ๊ธฐ ๋๋ฌธ์ ์ด๋ค ํน์ feature์๋ง ์์กดํ๋ ๊ฒฝ์ฐ๋ฅผ ๋ฐฉ์งํ๋ค.
๋ํ ๋จ์ผ ๋ชจ๋ธ๋ก ์์๋ธ ํจ๊ณผ๊ฐ ๋ ์ ์๋๋ก ํ๋ค.
Test-time์์ ์์์ฑ์ ๋ํด ํ๊ท ์ ๋ด๊ณ ์ถ์ ๋..
Dropout์ ํ๊ฒ ๋๋ฉด test time๋ ์ค์ด๋ค๊ฒ ํ ์ ์๋ค.
๋ ๋ค๋ฅธ regularization ๋ฐฉ๋ฒ์ผ๋ก๋ Data Augmentation์ด ์๋ค.
Training์ ์ํฌ ๋, ์ด๋ฏธ์ง์ patch๋ฅผ randomํ๊ฒ ์ก์์ ํ๋ จ์ ์ํค๊ฑฐ๋,
์ด๋ฏธ์ง๋ฅผ ๋ค์ง์ด์ train dataset์ ์ถ๊ฐํด ํ๋ จ์ ํด์ฃผ๊ฑฐ๋,
๋ฐ๊ธฐ๊ฐ์ ๋ค๋ฅด๊ฒ ํด์ train dataset์ ์ถ๊ฐํ๊ณ ํ๋ จ์ ํด์ฃผ๋ ๊ฒฝ์ฐ๋ ์๋ค.
์ด ์ธ์๋ ๋ค์ํ regularization ๋ฐฉ๋ฒ๋ค์ด ์กด์ฌํ๋ค.
์ ์ดํ์ต์ ๊ฐ๋จํ ๋งํ๋ฉด ์ด๋ฏธ pretrained๋ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ์ฐ๋ฆฌ๊ฐ ์ด์ฉํ๋ ๋ชฉ์ ์ ๋ง๊ฒ fine tuningํ๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค.
Small Dataset์ผ๋ก ๋ค์ training ์ํค๋ ๊ฒฝ์ฐ
๋ณดํต์ learning rate๋ณด๋ค ๋ฎ์ถฐ์ ๋ค์ training์ ์ํจ๋ค.
DataSet์ด ์กฐ๊ธ ํด ๊ฒฝ์ฐ, ์ข ๋ ๋ง์ layer๋ค์ train ์ํจ๋ค.
ํ ๋ฒ ๋ ํ๋ก ์ ๋ฆฌํด๋ณด๋ฉด, ์๋์ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
์ ์ดํ์ต์ ๋ง์ด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ ๊ผญ ์์๋์!