학습률을 너무 작게 설정하면 학습이 오래걸리고, 너무 크게 설정하면 손실이 감소하지 않거나 발산하게 된다.
https://paperswithcode.com/method/sgd-with-momentum
- 모멘텀과 비슷하게 이전에 계산했던 경사의 평균을 속도항으로 사용하지만 지수적으로 감쇠된다.
- 다른 최적화 알고리즘보다 학습 시간이 빠르다.
[참고자료]
https://www.hanbit.co.kr/store/books/look.php?p_code=B6566099029