[Andrew Ng] 4-3. Exponentially Weighted Averages

Prettypotato·2026년 2월 17일

딥러닝 2단계: 심층 신경망 성능 향상시키기

목록 보기

9/15

EWA의 정의

$v_t = \beta v_{t-1} + (1 - \beta)\theta_t$
- $v_t$ : 시점 $t$ 에서의 지수 가중 평균
- $\theta_t$ : 시점 $t$ 의 실제 값
- $\beta$ : decay rate (보통 0.9 ~ 0.99)
EWA는 최근 값일수록 더 큰 가중치를 갖는다.
$v_t = (1-\beta)\theta_t + \beta(1-\beta)\theta_{t-1} + \beta^2(1-\beta)\theta_{t-2} + \cdots$ $v_t = \sum_{k=0}^{t} \beta^k (1-\beta)\theta_{t-k}$
유효 Window 크기

$\text{effective window size} \approx \frac{1}{1 - \beta}$
- $\beta = 0.9 \Rightarrow$ 약 10 step 평균
- $\beta = 0.99 \Rightarrow$ 약 100 step 평균
Bias Correction
- 초기값을 $v_0 = 0$ 으로 두면, 초기 단계에서 값이 작게 편향된다.
  - 보라색 Line을 보면 엄청 낮은 곳에서 시작함. 귀납적으로 이어나가, 초반에 좋지 못한 추정을 하게됨.
- 이를 보정하기 위해 밑의 식을 사용함. $\hat{v_t} = \frac{v_t}{1 - \beta^t}$
왜 산술 평균을 안 쓰고 EMA를 쓸까?
- 산술 평균이 다 더하고 나누는 것이기에 EMA보다 정확하다. 하지만 많은 리소스를 잡아먹기에 EMA에 더 효율적이다.

출처 및 참고 자료

Andrew Ng, Improving Deep Neural Network, DeepLearningAI