Cost function z=f(x,y) 에서 x 와 y 를 Δx , Δy만큼 바꿨을 때, 함수 f(x,y) 값의 변화에 대한 근사식은 Δz=f(x+Δx,y+Δy)−f(x,y) 과 같다. f(x+Δx,y+Δy)이 f(x,y) 보다 작아지는 방향으로 변화하는게 이상적이며 이때 Δz는 음수이다.
다변수 근사식
이때 근사식 Δz는 다변수 근사식 (1) 에 따라
f(x+Δx,y+Δy)≈f(x,y)+δxδf(x,y)Δx+δyδf(x,y)Δy(1)
아래와 같이 정리된다.
Δz=δxδf(x,y)Δx+δyδf(x,y)Δy(2)
이는 x, y에서 각각 방향 δxδf(x,y) 으로 Δx 만큼 움직 인 것과 같으며 다음과 같이 내적으로 표현된다.
Δz=(δxδf(x,y),δyδf(x,y))⋅(Δx,Δy)(3)
내적의 최솟값
결국 Cost function Z가 최소가 되기위해서는 백터의 내적인 ΔZ가 최소가 되어야한다. 두 개의 백터 a,b 가 고정값일 때 둘 사이의 내적이 최소가 되려면 사이각이 θ=180 로 반대방향이 되야하며 다음 식처럼 표현할 수 있다.
a=−kb
이때 백터 a,b는 각각 (δxδf(x,y),δyδf(x,y))⋅(Δx,Δy) 이다. Learning rate η 기호를 써서 다음과 같이 표현한다.
(Δx,Δy)=−η(δxδf(x,y),δyδf(x,y))(4)
식 4를 만족하는 (Δx,Δy)이 있다면 (x+Δx,y+Δy) 로 이동했을 때 z가 최솟값을 가진다.