Optimizer

기울기값을 얼만큼 경사하강법에 적용할 지 결정하는 hyperparameter 입니다.
학습률(learning rate)를 조절하여 기울기 값을 조정할 수 있습니다.
그 결과, 모델 성능을 효율적으로 개선할 수 있습니다.(global minima를 효율적으로 찾을 수 있습니다.)

SGD(Stochastic Gradient Descent)

빈번하게 학습률을 갱신합니다. 1 cycle에 모든 데이터에 대해서 값을 갱신합니다.
모멘텀을 조정할 수 있습니다.
장점 : 비교적 빠른 시간안에 minima를 찾을 수 있습니다.
단점: 높은 분산. global minima를 찾았는 데도 불구하고 더 실행될 수 있습니다.

Momentum

SGD 에서 발생하는 high variance를 줄이기 위해 만들어 졌습니다.
연관성이 있는 방향으로 갈 수 있도록 해주고 fluctuation을 줄여줍니다.

Adagrad

다른 optimizers 는 학습률을 상수로 설정하지만, Adagrad는 각각 파라미터에 대한 학습률을 변경합니다.

Adam

적당한 속도로 local minima를 빠져나오게 하고 적당한 스피드로 global minima를 찾습니다.

profile
danny + realism

0개의 댓글