[Andrew Ng] 4-4. Gradient Descent with Momentum

Prettypotato·2026년 2월 17일

Gradient Descent with Momentum

  • Momentum은 관성처럼 과거의 방향을 유지하면서
    학습을 더 빠르고 안정적으로 만드는 방법이다.

Momentum 수식

  • Velocity 업데이트

    vt=βvt1+(1β)J(θt1)v_t = \beta v_{t-1} + (1 - \beta)\nabla J(\theta_{t-1})
    • vtv_t: 현재 속도(velocity)
    • β\beta: momentum 계수 (보통 0.9)
    • J(θt1)\nabla J(\theta_{t-1}): gradient
  • 파라미터 업데이트

    θt=θt1ηvt\theta_t = \theta_{t-1} - \eta v_t
    • η\eta: learning rate
    • vtv_t: momentum이 적용된 gradient

GD vs Momentum

  • Gradient Descent

    θt=θt1ηJ(θt1)\theta_t = \theta_{t-1} - \eta \nabla J(\theta_{t-1})
  • Momentum

    θt=θt1ηvt\theta_t = \theta_{t-1} - \eta v_t
  • Gradient Descent는 현재 gradient만 사용하여 업데이트한다.
    그러나 Momentum은 과거 gradient들의 지수 가중 평균(EWA)vtv_t를 사용하여 일관된 방향은 강화하고, 진동 성분은 상쇄한다.

출처 및 참고 자료

  • Andrew Ng, Improving Deep Neural Network, DeepLearningAI
  • 혁펜하임, Easy! 딥러닝

0개의 댓글