[Artificial Intelligence] Gradient Descent / Stochastic Gradient Descent

TaeYong·2022년 10월 19일

목록 보기

2/2

1. Gradient Descent

W_{result} = \frac{\partial{Loss(W,b)}}{\partial{W}} = 0 \\ b_{result} = \frac{\partial{Loss(W,b)}}{\partial{b}} = 0

Practical Approch에서는 이 문제를 해결하기 위해 Iteration optimization인 Gradient Descent가 있다.
Gradient Descent란 함수의 기울기(W)를 구하고, 기울기의 반대 방향으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것이다. 따라서, loss에 최적화된 근사값을 구한다. $W^{(n+1)} = W^{(n)}-r_w\frac{\partial{Loss}}{\partial{W}} \\ b^{(n+1)} = b^{(n)}-r_b\frac{\partial{Loss}}{\partial{b}}$

위 식에서 r_w, r_b는 learning rate이다.
Learning rate란 gradient descent을 진행할 때 얼마의 하강하는 폭의 크기로 다음 계산을 진행하지 정하는 값이다.
보통 임의의 값으로 지정하고, 값을 바꿔가며 학습을 진행해서 최적의 결과가 나오는 값을 채택한다.
매우 큰 값으로 잡게 되면 하강하는 폭이 커져, 학습이 이뤄지지 않으며 최저점에 도달하는 것에 넘어 반대 방향으로 overshooting이 발생할 수 있다.
매우 작은 값으로 잡게 되면 하강하는 폭이 작아져, 최저점에 도달하는 시간이 매우 늦게 도달할 것이며 global mininum이 아닌, local minimum에 도달할 가능성이 커진다.

Loss(W, b) = \frac{1}{n}\sum_{i=1}^{n}{((Wx_i+b) - y_i)}^2 \\ \frac{\partial{Loss(W,b)}}{\partial{W}} = \frac{1}{n}\sum_{i=1}^{n}2{((Wx_i+b) - y_i)(x_i)} =\frac{2}{n}\sum_{i=1}^{n}{x_i((Wx_i+b) - y_i)} \\ \frac{\partial{Loss(W,b)}}{\partial{b}} =\frac{2}{n}\sum_{i=1}^{n}{((Wx_i+b) - y_i)}