gradient descent를 진행할 때 어떻게 할지가 옵티마이저
모멘텀 : 현재까지 오던 관성
스텝사이즈 : learning rate
두개의 방향성으로 발전했으며,
가장 많이 쓰이는 아담은 모멘텀과 lr 둘다 조절한다.