Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

Jisung Park·2020년 10월 20일

paper review

목록 보기

1/3

Our goal is to use large minibatches in place of small
minibatches while maintaining training and generalization
accuracy.

배치사이즈를 크게 해서 학습속도를 줄이려고 할 때, learning rate를 어떻게 조절해야 하는지 알아보자

Linear Scaling Rule
- batchsize가 k배 커지면 learning rate (lr)을 k배 크게 하고
- k*lr 도달 시점까지 warmup을 적용하면
- 기존과 동일한 수준의 generalization accuracy (test accuracy) 를 유지할 수 있음
- batchsize가 커지므로 학습시간은 단축됨
Batch Normalization Rule
- Initializing γ = 0 in the last BN layer of each residual block improves results for both small and largeminibatches
- residual block 의 마지막 파트의 BN γ 를 0으로 셋팅하면 large minibatch에서 성능 향상에 도움이 된다
linear scaling rule 에 따라 학습한 결과, 8k 수준의 batchsize에서 동일한 성능을 얻음