AdaGrad의 누적경사도가 점점 커셔 수렴을 방해할 가능성이 있음
RMSProp은 누적된 값과 새로운 그래디언트 양을 반비례로 구성해 최근 그래디언트로 더 나아갈지 기존 방향성을 가질지 결정할 수 잇음
보통 a를 0.9, 0.99, 0.999로 사용