지수 가중평균이란 데이터의 이동평균을 구할 때 오래된 데이터가 미치는 영향을 지수적으로 감쇄시켜 계산하는 방식이다
Vt=βVt−1+(1−β)×Θt
- 이때 β 는 0과 1사이 하이퍼파라미터, Θ 는 새로들어온 데이터, Vt 현재 상태변수로 볼 수 있다
Vt−1=βVt−2+(1−β)×Θt−1 인것을 고려하면
- Vt=β(βVt−2+(1−β)×Θt−1)+(1−β)Θt−2 인데 이를 보면
- Vt−2 의 계수는 β2 로 현재상태 Vt 를 계산할 때 l 만큼의 이전상태 Vt−l 는 βl 만큼 가중치를 갖는다는 것을 알 수 있다. 이는 오래된 데이터일수록 기하급수적으로 영향력이 감소하게 되는 결과를 낳는다. 그러한 이유로 Exponentially 라는 뜻이 붙게 되었다
Vt=(1−β)τ=0∑t−1βτΘt−τ
- 유도
- Vt=βVt−1+(1−β)×Θt
- Vt−1=βVt−2+(1−β)×Θt−1
- ...
- V1=(1−β)Θ1
- Vt=(1−β)Θt+β[(1−β)Θt−1+β[(1−β)Θt−2+β[...β[V0]]]]
- Vt=(1−β)τ=0∑t−1βτΘt−τ
- 활용 : 이 V 값은 근사적으로 1−β1 단계의 데이터만을 활용하여 평균을 취한것과 같다고 알려져있다. 예컨데 β=0.98 이면 위 식의 값은 50으로, 대략 50일간의 데이터를 갖고 가중평균을 구한것과 유사해지는 것이다.
Momentum
Leaky Average
미니배치 SGD가 연산을 가속시키는 방법으로 제시되었다.
- gt,t−1=∂w∣Bt∣1i∈Bt∑f(xi,wt−1)=∣Bt∣1i∈Bt∑hi,t−1
- 표기를 간단하게 하기 위하여 hi,t−1=∂wf(xi,wt−1) 로 하였다
미니배치에 대한 그레디언트를 평균하는 것의 효과를 넘어 분산을 감소하기 위하여, 다음과 같은 아이디어가 고안되었다
- vt=βvt−1+gt,t−1 for some β∈(0,1)
- xt←xt−1−ηtvt
- v 는 속도velocity라 불리며, 이는 과거의 그레디언트 값들을 참조한다
- vt=βvt−1+gt−1,t=β(βvt−2+gt−2,t−1)+gt,t−1=⋯=τ=0∑t−1βτgt−τ,t−τ−1
- β 값이 크게 된다면 장기간의 평균을 구한것과 비슷해지고, β 값이 작게된다면, 현재 그레디언트에 적은 영향력만을 갖게 될 것이다
- 이 새로운 그레디언트 계산법은 가장 가파른 강하방향을 가르키는 것이 아니라, 과거 그레디언트의 가중 평균을 가르치게 된다. 이는 배치에 대한 평균 그레디언트을 사용할때의 이점을 실제 평균 그레디언트를 계산하는 것보다 적은 연산으로 취할 수 있게 해준다
가속화된 그레디언트 방법accelerated gradient method 혹은 모멘텀을 갖는 그레디언트gradients with momentum이라고 불리게 된다
- 이 방법은 좋지 않은 조건ill-conditioned의 문제들(예를 들어 비용함수의 모양이 좁은 협곡과 같은 형태로, 특정 방향에서 매우 느리게 진행되는 형태)를 푸는데 좋고, 또 gradient의 업데이트가 좀 더 안정적으로 이루어진다는 장점이 있다
나쁜 조건의 문제 An Ill-conditioned Problem
모멘텀 방법의 기하학적 특성을 잘 이해하기 위하여, 조금 좋지 않은 형태의 목적함수를 제시한다
f(x)=0.1x12+2x22 로 x1 에 비해 x2 스케일이 훨씬 커, 매우 납작한 형태의 타원이다
x2 의 스케일이 크기 때문에, 그레디언트가 x2 방향으로 훨씬 큰폭으로 진동하는 모습을 보여진다. 그 결과 다음과 같은 불편한 선택지가 남는다
1. 학습률을 줄여 해가 x2 방향으로 발산하는 것을 막고, x1 의 극값으로의 느린 수렴을 기다리는 것
2. 학습률을 높여 x1 방향으로 빠르게 진행하는 대신, x2 에서 발산하는 것
import torch
from d2l import torch as d2l
eta=0.4deff_2d(x1,x2):return0.1* x1 **2+2* x2 **2defgd_2d(x1,x2,s1,s2):return(x1-eta *0.2* x1, x2-eta *4*x2,0,0)
![](https://d2l.ai/_images/output_momentum_e3683f_3_1.svg)
d2l.show_trace_2d(f_2d,d2l.train_2d(gd_2d))
중력만을 고려한 물체의 운동(마찰 고려 X)
- T+V=21mx˙2+mgh=E(const)
- E=21mx˙2+mgf(x)
- ∂t∂E=mx˙⋅x¨+mg∂x∂f∂t∂x=mx¨⋅x˙+mgx˙⋅∇xf(x)=0
- m(x¨+g∇xf(x))⋅x˙=0
- x¨=−g∇xf(x)
- x˙=x˙0−∫0t∇xf(x(t′))dt′
기존 Momentum 식과의 대조
- −vt=−(βvt−1+gt−1,t=β(βvt−2+gt−2,t−1)+gt,t−1)=⋯=−τ=0∑t−1βτgt−τ,t−τ−1
- gt,t−1=∂w∣Bt∣1i∈Bt∑f(xi,wt−1)
- x˙=−∫0t∇xf(x(t′))dt′ (초기 속도가 없다고 가정할 경우)
- Momentum 방법의 식은 [τ−1,τ] 의 시간 간격단위로 쪼개어, 각 시간 단위에 중력 가속도 g 를 곱한 것으로 해석할 수 있다. 다만 이 경우 적분의 정의를 고려하면 gt−τ,t−τ+1(t∗)=∫t−τt−τ+1gt−τ,t−τ+1(t′)dt′ 을 만족시키는 t∗∈[t−τ,t−τ+1] 를 각 구간마다 설정했어야 할 텐데, 그렇지 않다는 점에서 첫번째로 다른점이고, 물리방정식은 마찰력을 고려하지 않았다는 점이 두번째로 다른점이다. 모멘텀 방법은 시간이 τn 만큼 경과했을 때마다 중력의 영향력을 βn 만큼 감쇄시킨 것으로 해석하였는데, 이것이 실제 마찰을 고려한 물체의 운동과 어느정도 상관관계가 있는지는 좀 더 공부해봐야 할 것같다
(마찰,중력에너지를 고려한 물체의 운동)
- E=21mx˙2+mgf(x)+∫Q(x˙)dtE: consant
- ∂t∂E=mx˙⋅x¨+mg∂x∂f∂t∂x+Q(x˙)
- 이때 Q(x˙)=−γx˙2 라고하자
- mx˙⋅(x¨+g∇f−γx˙)=0
- x¨+g∇f(x)−γx˙=0
모멘텀 방법은 위와 같은 문제를 해결하는 좋은 해결책이 된다
최적화 경로를 잘 살펴보다보면 과거에 대한 gradient를 평균하는 것이 잘 작동할 수 있을 것이라는 직감이 생긴다. x1 방향으로 이동하는 거리가 쌓여 더 먼 저기를 이동하게 되고, x2 는 진동 반대방향의 그레디언트와 더해져 상쇄되게 된다.
식은 다음과 같은 공식이 된다
- vt←βvt−1+gt,t−1
- xt←xt−1−ηtvt
- 이때 보면 알수 있듯이, β=0 이라면 기존 경사하강법과 동일하게 된다
언어모델을 학습시킨다고 하자. 좋은 정확도를 얻기 위해선 학습률을 O(t−1/2) 보다 낮게 하는 것이 좋다. 비주기적으로 희박하게 등장하는 피쳐들이 있는 모델을 생각하자. 이는 자연어 모델, 개인화된 협업 필터링과 같은 추천시스템에서 종종 등장하는 일이다
빈도가 적은 피쳐와 연관된 파라미터들은 해당 피쳐가 등장할때만이 유의미한 업데이트가 가능하다. 이런 상황에서는 보편적으로 등장하는 피쳐의 수렴으로 인해 학습이 조기 종료될 가능성이 높다. 빈번하게 등장하는 피처에겐 학습률이 지나치게 느리게 감소하고, 드물게 등장하는 피쳐에게는 너무나 빠르게 감소하는 일이 된 것이다
이런 문제를 해결하기 위해선 피처들이 얼마나 등장하는지 셀 필요가 있다. 또 학습률을 보편적으로 부과하는게 아닌 각 피처별로 다르게 두어야 한다
- 즉 η=t+cη0 꼴에서 ηi=s(i,t)+cη0 가 되어야 하는것이다.
- 이때 s(i,t) 는 피쳐 i 의 시간 t 에서의 카운트 횟수이다
- 그러나 학습은 실패하는 경우가 종종 있는데, 이는 데이터가 희소해서가 아닌, 데이터의 그레디언트값이 매우 크거나 작을때 발생한다
Adagrad는 s(i,t) 로 단순하게 카운트하기 보단 이전 관측치의 그레디언트 제곱값을 합하여 계산한다
- s(i,t+1)=s(i,t)+(∂xf(x))2 인 것이다
- 이는 gradient의 크기를 자동적으로 조절해준다는 이점을 갖고 있다
- 그레디언트 값이 크게나오는 좌표값들은 스케일링 다운해지는 반면, 작은 그레디언트값을 갖는 좌표들은 더 큰 값을 갖도록 조정되는 것이다. 이는 실제로 추천시스템과 비슷한 문제들에서 상당히 유효하게 기능한다
AdaGrad 알고리즘
st=st−1+gt2
xt=xt−1−st+ϵηgt
- AdaGrad는 각각의 매개변수에 적응적으로 학습률을 조정하며 학습을 진행한다
- AdaGrad의 st 기울기를 제곱하여 계속 더해가기 때문에 학습이 진행될수록 st+ϵη 는 점점 더 작아질 수 밖에 없다. 어느 순간에 도달하면 학습이 진행되지 않는다는 문제가 발생하여, 다른 알고리즘이 개발되었다
convex 문제에 관해선 일반적으로 괜찮은 학습방법일지 몰라도, nonvex한 문제들에 관해선 적합하지 않다. 그럼에도 Adagrad의 성분간 다르게 학습률을 적용시키는 방식은 매우 좋은 아이디어였으므로, 이 장점을 살린 다른 최적화 알고리즘을 만들고자 하였다
Tieleman과 Hinton은 RMSProp 알고리즘을 이 학습률 감소 문제와 coordinate-adaptive learning rates의 문제를 분리하여 보기 시작하였다
- 학습률 감소 문제는 Adagrad가 상태벡터 st가 그레디언트 제곱을 계속 더하면서 발생한 문제였다. 따라서st 가 정규화의 부족으로 선형적으로 계속 성장한다는 문제가 있다
- 이러한 문제를 해결하기 위하여 st/t 를 사용한다.
- reasonable한 분포들의 그레디언트들은 수렴할 것이다
- 문제는 이 알고리즘이 사용된다면, 기존 모든 값들을 저장하면서 진행되기 때문에 학습에 있어 매우 긴 시간이 걸릴 것이라는 점이다
- 이러한 대안으로서 모멘텀 방법을 활용한다
- st←γst−1+(1−γ)gt2
- xt←xt−1−st+ϵη⊙gt
- 상수 ϵ>0 는 기본적으로 10−6 보다 작게 사용하여, divison-zero 문제를 피하기 위해 사용된다
- st=(1−γ)gt2+γst−1=⋯=(1−γ)n=0∑t−1γngt−n2
import math
import torch
from d2l import torch as d2l
d2l.set_figsize()
gammas=[0.95,0.9,0.8,0.7]for gamma in gammas :
x= torch.arange(40).detach().numpy()
d2l.plt.plot(x,(1-gamma)*gamma ** x ,label=f'gamma]{gamma:.2f}')
d2l.plt.xlabel(('time'));
알고리즘 형태
- 아담은 2개의 상태변수를 활용한다.
- vt←β1vt−1+(1−β1)gt
- st←β2st−1+(1−β2)gt2
- xt=xt−1−g′t
- i=0∑t−1βi=1−β1−βt 라는 사실을 활용하여 각 텀을 re-normalizating 하자
- v^t=1−β1tvt 그리고, s^t=1−β2tst
- g′t=s^t+ϵηv^t 의 형태로, RMSProp과 매우 유사하게 정의내린다
- 그 결과 Adam 알고리즘은 그레디언트에 대한 지수평균을 한 상태변수 vt 가 스텝 방향 을 조정하는 역할을(크기도 바꾸기도 함)(Momentum의 기능), 그레디언트 제곱의 지수평균을 한 상태변수 st 가 스텝 크기를 점차 줄여나가는 역할을(RMSProp의 기능) 한다
Adam이 second moment 추정인 st 가 갑자기 폭등하여 수렴이 실패하는 문제가 종종 발생하였다
이에 따라서 st 를 다르게 정의한 알고리즘을 고안하였는데, 이를 Yogi라고 명명 되었다
st←st−1+(1−β2)(gt2−st−1)
- 만약 gt2 가 높은 분산값을 갖거나 업데이트 횟수가 희박하다면, st 는 과거의 값을 지나치게 빠르게 망각해버릴 수 있다.
- 이러한 문제를 해결하기 위해 gt2−st−1 대신 gt2⊙sgn(gt2−st−1) 로 다시 대체되었다
- 이제 업데이트의 크기는 더이상 편차의 값에만 의존하지 않는다