Velocity 업데이트
파라미터 업데이트

Gradient Descent
Momentum
Gradient Descent는 현재 gradient만 사용하여 업데이트한다.
그러나 Momentum은 과거 gradient들의 지수 가중 평균(EWA)인 를 사용하여 일관된 방향은 강화하고, 진동 성분은 상쇄한다.
출처 및 참고 자료
- Andrew Ng, Improving Deep Neural Network, DeepLearningAI
- 혁펜하임, Easy! 딥러닝