Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

Jisung Park·2020년 10월 20일
0

paper review

목록 보기
1/3

https://research.fb.com/wp-content/uploads/2017/06/imagenet1kin1h5.pdf

Our goal is to use large minibatches in place of small
minibatches while maintaining training and generalization
accuracy.

배치사이즈를 크게 해서 학습속도를 줄이려고 할 때, learning rate를 어떻게 조절해야 하는지 알아보자

  • Linear Scaling Rule
    - batchsize가 k배 커지면 learning rate (lr)을 k배 크게 하고
    - k*lr 도달 시점까지 warmup을 적용하면
    - 기존과 동일한 수준의 generalization accuracy (test accuracy) 를 유지할 수 있음
    - batchsize가 커지므로 학습시간은 단축됨

  • Batch Normalization Rule

    • Initializing γ = 0 in the last BN layer of each residual block improves results for both small and largeminibatches

    • residual block 의 마지막 파트의 BN γ 를 0으로 셋팅하면 large minibatch에서 성능 향상에 도움이 된다

  • linear scaling rule 에 따라 학습한 결과, 8k 수준의 batchsize에서 동일한 성능을 얻음

0개의 댓글