[DL] Optimizer Function

김선형·2025년 9월 19일

DL

목록 보기
3/4

개요

Optimizer

신경망이 Loss를 기반으로 어떻게 학습할지 결정한다.

Adaptive Optimizer

손실 지형이나 학습 단계에 따라 학습률을 조정한다. 학습 과정에서 파라미터를 다른 속도로 조정하기 때문에 더 효과적이며, 더 신뢰할 만한 성능을 보인다.

Argument

Learning rate

Optimizer의 학습률을 결정한다.

Momentum

Gradient Descent에서 이미 계산된 기울기 정보를 이용해, Step Size를 조절한다. 직관적으로 기울기 방향이 바뀌면 이동 폭을 줄이고, 기울기 방향이 유지되면 이동 폭을 키운다. 이를 통해 학습 속도가 빨라지고 Local Optimum에 갇히는 문제가 감소한다.

Weight decay

Weight regularization을 통해 Overfitting을 방지한다.

Optimizer Function

Gradient Descent

θ=θηθJ(θ)\theta=\theta-\eta\nabla_\theta J\left(\theta\right)

Stochastic Gradient Descent

θ=θηθJ(θ;sample)\theta=\theta-\eta\nabla_\theta J\left(\theta;sample\right)

Mini-Batch Gradient Descent

θ=θηθJ(θ;Nsample)\theta=\theta-\eta\nabla_\theta J\left(\theta;N sample\right)

SGD+Momentum

v=γv+θJ(θ)θ=θηvv=\gamma v+\nabla_\theta J\left(\theta\right) \\ \theta=\theta-\eta v

SGD with Nesterov Accelerated Gradient

v=γv+ηθJ(θγv)θ=θvv=\gamma v+\eta\nabla_\theta J\left(\theta-\gamma v\right) \\ \theta=\theta-v

✏️ 이외에도 Adagrad, Adadelta, Adam 등의 Optimizer Function이 존재한다.

profile
선형의 비선형적 기록 🐜

0개의 댓글