머신 러닝에서 모델 최적화를 진행할 때, 학습률 (learning rate) 을 적절히 설정해야 한다. 학습률이 너무 높으면 loss가 급증하고, 너무 낮으면 학습이 매우 천천히 진행되어 비효율적이다. 그렇다면 적절한 학습률을 어떻게 결정할 수 있을까?
대개는 다양한 학습률 값으로 실험을 해 본 뒤 가장 적절한 값을 채택한다.
learning rate decay
처음에는 큰 학습률로 시작한 후 학습률을 점차 감소시킨다.
( = learning rate at epoch t, = initial learning rate, = total number of epochs)



그러나 초기에 지나치게 큰 학습률을 사용하면 loss가 급증하게 되므로, 0에 가까운 작은 학습률로 시작해서 linear하게 증가시키는 것도 한 가지 방법이다.
https://velog.io/@good159897/Learning-rate-Decay의-종류
https://www.youtube.com/watch?v=WUazOtlti0g
Image credits : https://cs231n.stanford.edu/slides/2020/lecture_8.pdf