함수의 최솟값 근사
x−af′(x)
a는 학습률
위 식을 반복한다.
입력이 벡터인경우 편미분을 이용한다.
편미분
ei는 i번째 값만 1이고 나머진 0인 단위벡터
∂xif(x)=h→0limhf(x+hei)−f(x)
gradient vector
f(x,y)=x2+2y2
∇f=(2x,4y)
gradient vector=−∇f=(−2x,−4y)
gradient vector를 화살표로 표현하면 각 점에서 최솟점으로 가장 빠르게 감소하는 방향과 같다.