📍 강의 자료 출처 : LG Aimers
Gradient Discent의 목적 : objective 함수 최소화하는 찾기
: 가장 기본적인 형태로, overview에서 설명하는 경사하강법을 의미한다.
linear regression model에서 목적함수 의 partial derivative term을 넣어서 각각 와 을 바꾸는 것을 볼 수 있다.

local minimum에 빠지게 되는 문제를 해결하기 위한 방법 중 하나이다.
Momentum
: 과거에 Gradient가 업데이트 되어오던 방향 및 속도를 어느 정도 반영해서
현재 포인트에서 Gradient가 0이 되더라도 계속해서 학습을 진행할 수 있는 동력을 제공하게 되는 것
= exponentially weighted moving average
항상 < 1이기 때문에 를 연속적으로 곱하게 되면 값이 점점 작아진다.
→ 먼 과거의 값은 더욱 작아지게 되고 비교적 가까운 거리의 과거 기울기는 적게 작아진
다.
low passing filtering 연산이기 때문에 현재 위치에서의 saddle point나 작은 noise gradient 값의 변화에 보다 안정적으로 수렴할 수 있게 바뀌게 된다.
⇒ SGD에 monentum을 더해 과거의 값을 반영한 gradient값이 업데이트되도록 만들어 local minimum이나 saddle point처럼 기울기가 0인 지점에 도달하더라도, 과거에 이어오던 momentum 값을 반영해서 계속해서 학습이 진행될 수 있도록 한다.
: 기존의 방식과 달리, gradient를 먼저 평가하고 업데이트하는 방식
= lookahead gradient step 이용
미리 momentum step만큼 이동한 지점에서 lookahead gradient step을 더해 actual step을 계산한다.
: 각 방향으로의 learning rate를 적응적으로 조절하여 학습효율을 높이는 방식
어느 한 방향으로 gradient값이 크다
= 이미 그 방향으로 학습이 많이 진행되었다
= gradient 방향으로의 누적합()이 크다
= 값이 작아져 그만큼의 수렴 속도를 줄인다
→ 축적된 gradient 값을 통해 learning rate를 조절한다.
단점
gradient값이 계속해서 누적됨에 따라 learning rate값이 굉장히 작아지게 된다.
= 학습이 일어나지 않게 된다.
AdaGrad의 문제점 수정
: gradient 방향으로의 누적합()을 업데이트할 때 gradient의 제곱을 그대로 곱하는 것이 아니라
기존에 있던 에 값을 곱하고 (1-)를 gradient 제곱에 곱해, 에 과거의 만큼의 factor를 곱해서 어느 정도 조절하는 방식
→ 어느 정도 완충된 형태로 학습 속도가 줄어든다.
: RMSProp + Momentum 방식
: 학습 과정마다 step size 을 적응적으로 줄여나가는 방식
Model 과적합 문제
: Model이 지나치게 복잡하여(=학습 parameter의 숫자가 많아서)
제한된 학습 샘플에 너무 과하게 학습이 되는 것
: 복잡한 모델을 사용하더라도 학습 과정에서 복잡도에 대한 패널티를 부여하여 과적합되지 않도록 하는 방식
모델 입장에서는 가능한 한 를 사용하지 않으면 loss를 최소화하기 위해 노력할 것
를 쓰지 않는다 ⇔
→ parameter의 개수를 줄임으로써 모델의 복잡도를 줄일 수 있다.