Gradient Descent의 적절한 Learning rate를 찾는 것은 어려운 일이였다. 최적의 Learning rate를 찾기위한 비용이 너무 컸기에, Gradient Descent만 이용해도 더 좋은 성능을 내고 더 빠른 학습속도를 가질수 있는지에대한 연구가 시작됐다. 이렇게 만들어진 Algorithm이 Momentum 이다.
Momentum을 한마디로 정의하자면 이전 방향의 기울기를 현재 기울기에 영향을 주자는 것이다.
위 식에서 베타라는 하이퍼 파라미터가 전 정보를 가지고 있게 해주고 이것을 at+1 라는 accumlation에 저장한다. 이 때, 베타를 바로 momentum이라고 한다. 이렇게 구해진 At+1를 이용하여 가중치 Wt+1를 갱신해준다.
이러한 아디이어로 얻는 효과는 각 step의 기울기가 일정하지 않고 여기저기 튀어도 이전 기울기를 어느정도 가져가기 때문에 보다 안정된 학습이 이뤄지게된다는 것이다.