[Andrew Ng] 4-3. Exponentially Weighted Averages

Prettypotato·2026년 2월 17일

Exponentially Weighted Averages

  • EWA의 정의

    vt=βvt1+(1β)θtv_t = \beta v_{t-1} + (1 - \beta)\theta_t
    • vtv_t : 시점 tt에서의 지수 가중 평균
    • θt\theta_t : 시점 tt의 실제 값
    • β\beta : decay rate (보통 0.9 ~ 0.99)
  • EWA는 최근 값일수록 더 큰 가중치를 갖는다.

    vt=(1β)θt+β(1β)θt1+β2(1β)θt2+v_t = (1-\beta)\theta_t + \beta(1-\beta)\theta_{t-1} + \beta^2(1-\beta)\theta_{t-2} + \cdots
    vt=k=0tβk(1β)θtkv_t = \sum_{k=0}^{t} \beta^k (1-\beta)\theta_{t-k}
  • 유효 Window 크기

    effective window size11β\text{effective window size} \approx \frac{1}{1 - \beta}
    • β=0.9\beta = 0.9 \Rightarrow 약 10 step 평균
    • β=0.99\beta = 0.99 \Rightarrow 약 100 step 평균
  • Bias Correction

    • 초기값을 v0=0v_0 = 0으로 두면, 초기 단계에서 값이 작게 편향된다.
      • 보라색 Line을 보면 엄청 낮은 곳에서 시작함. 귀납적으로 이어나가, 초반에 좋지 못한 추정을 하게됨.
    • 이를 보정하기 위해 밑의 식을 사용함.
      vt^=vt1βt\hat{v_t} = \frac{v_t}{1 - \beta^t}
  • 왜 산술 평균을 안 쓰고 EMA를 쓸까?

    • 산술 평균이 다 더하고 나누는 것이기에 EMA보다 정확하다. 하지만 많은 리소스를 잡아먹기에 EMA에 더 효율적이다.

출처 및 참고 자료

  • Andrew Ng, Improving Deep Neural Network, DeepLearningAI

0개의 댓글