우리는 모델을 학습시키고자 할 때 모델의 출력(pred)과 참 값(gt)사이의 오차(loss)가 최소가 되는 방향으로 학습합니다.
우리는 이 방향을 미분을 통해 얻습니다. 그리고 이 미분값을 gradient라 합니다.
즉 오차를 나타내는 함수 즉 Loss function의 극소점을 찾는 것인데 만약 극소점을 찾았다면 이 점에서의 gradient는 모든 축에 대해서 0일 것입니다.
그런데 위와 같은 2차원 그래프에서도 우리가 생각하는 극소점이 아니더라도 다른 지점에서도 얼마든지 gradient가 0이 되는 경우가 존재합니다.
우리는 이 경우 local minima라고 합니다.
local minima에 빠지지 않기 위해서 learning rate의 역할이 중요해보입니다.