Gradient Descent(경사하강법)을 통해 Cost Function의 최소값을 찾게 되도록 하는데 극소점 즉, Global Minima에 다다르지 않고, 기울기가 0이 되는 다른 지점을 Local Minima라고 합니다. 이렇게 Local Minima로 빠지는 것을 방지하기 위한 방법으로 다양한 Optimize 기법이 있습니다.
Stocatic Gradient Descent 방법은 데이터의 전체를 활용하지 않고 일부분을 활용하면서 업데이트 하는 방식으로 Local Minima에 빠지더라도 다른 데이터 셋이 사용되었을때, 빠져나올수 있다는 장점을 가지고 있습니다. 기존에는 스무스하게 찾아갔다면, 이는 지그재그 형식으로 Global Minima를 찾아가게 됩니다.
그 외에도 방향성을 유지하는 Momentom 기법이나, 업데이트하는 사이즈를 조정하는 Adagrad방식, 이 둘을 적절히 합친 Adam 기법이 있는 것으로 알고 있습니다. 주로 프로젝트에서는 Adam을 활용했습니다.