[Andrew Ng] 4-4. Gradient Descent with Momentum

Prettypotato·2026년 2월 17일

딥러닝 2단계: 심층 신경망 성능 향상시키기

목록 보기

10/15

Gradient Descent with Momentum

Momentum은 관성처럼 과거의 방향을 유지하면서
학습을 더 빠르고 안정적으로 만드는 방법이다.

Momentum 수식

Velocity 업데이트

$v_t = \beta v_{t-1} + (1 - \beta)\nabla J(\theta_{t-1})$
- $v_t$ : 현재 속도(velocity)
- $\beta$ : momentum 계수 (보통 0.9)
- $\nabla J(\theta_{t-1})$ : gradient
파라미터 업데이트

$\theta_t = \theta_{t-1} - \eta v_t$
- $\eta$ : learning rate
- $v_t$ : momentum이 적용된 gradient

GD vs Momentum

Gradient Descent
$\theta_t = \theta_{t-1} - \eta \nabla J(\theta_{t-1})$
Momentum
$\theta_t = \theta_{t-1} - \eta v_t$
Gradient Descent는 현재 gradient만 사용하여 업데이트한다.
그러나 Momentum은 과거 gradient들의 지수 가중 평균(EWA)인 $v_t$ 를 사용하여 일관된 방향은 강화하고, 진동 성분은 상쇄한다.

출처 및 참고 자료

Andrew Ng, Improving Deep Neural Network, DeepLearningAI

혁펜하임, Easy! 딥러닝

이전 포스트

[Andrew Ng] 4-3. Exponentially Weighted Averages

다음 포스트

[Andrew Ng] 4-5. RMSProp - Root Mean Sqruare Prop

0개의 댓글