Local minima

Hansss·2021년 11월 29일

Machine Learning

목록 보기

3/10

우리는 모델을 학습시키고자 할 때 모델의 출력(pred)과 참 값(gt)사이의 오차(loss)가 최소가 되는 방향으로 학습합니다.

우리는 이 방향을 미분을 통해 얻습니다. 그리고 이 미분값을 gradient라 합니다.

즉 오차를 나타내는 함수 즉 Loss function의 극소점을 찾는 것인데 만약 극소점을 찾았다면 이 점에서의 gradient는 모든 축에 대해서 0일 것입니다.

그런데 위와 같은 2차원 그래프에서도 우리가 생각하는 극소점이 아니더라도 다른 지점에서도 얼마든지 gradient가 0이 되는 경우가 존재합니다.

우리는 이 경우 local minima라고 합니다.

local minima에 빠지지 않기 위해서 learning rate의 역할이 중요해보입니다.

딥러닝 연습생