Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

Jisung Park·2020년 10월 20일

paper review

목록 보기

Our goal is to use large minibatches in place of small
minibatches while maintaining training and generalization

배치사이즈를 크게 해서 학습속도를 줄이려고 할 때, learning rate를 어떻게 조절해야 하는지 알아보자

  • Linear Scaling Rule
    - batchsize가 k배 커지면 learning rate (lr)을 k배 크게 하고
    - k*lr 도달 시점까지 warmup을 적용하면
    - 기존과 동일한 수준의 generalization accuracy (test accuracy) 를 유지할 수 있음
    - batchsize가 커지므로 학습시간은 단축됨

  • Batch Normalization Rule

    • Initializing γ = 0 in the last BN layer of each residual block improves results for both small and largeminibatches

    • residual block 의 마지막 파트의 BN γ 를 0으로 셋팅하면 large minibatch에서 성능 향상에 도움이 된다

  • linear scaling rule 에 따라 학습한 결과, 8k 수준의 batchsize에서 동일한 성능을 얻음

0개의 댓글