- Chain rule
Gradient는 미분과 밀접한 관련이 있다. 그리고 여러 함수들에 대해 미분을 자유롭게 하려면
Chain rule을 알아야 한다.
Chain rule은 합성함수를 미분할 때 사용한다.
쉽게는 합성함수를 쪼개서 각각의 도함수를 구한 후 곱한다! 라고 생각하면 된다.
y=f(x),z=g(y)에서 함수 z를 x에 대해서 미분해보자.
dxdz=Δx→0limΔxg(f(x+Δx))−g(f(x))
=Δx→0limf(x+Δx)−f(x)g(f(x+Δx))−g(f(x))×Δxf(x+Δx)−f(x)
∴dxdz=dydz×dxdy
이제 Chain rule를 사용해 (x2+1)2을 x에 대해 미분해보자.
dxd(x2+1)2를 구하는 것이다. 이를 Chain rule을 사용한다면 다음과 같이 표현가능하다.
dxd(x2+1)2=d(x2+1)d(x2+1)2×dx2d(x2+1)×dxdx2
=2(x2+1)×1×2x
=4x(x2+1)
- 편미분
Gradient를 이루고 있는 value 이다.
편미분은 여러 개의 변수로 이루어진 함수를 미분할 때 각각에 대해서 미분하는 것이다.
어떤 변수에 대해 미분한다고 했을 때 그 변수를 제외한 나머지 변수들은 상수 취급을 하면서 미분해주면 된다.
예를 들어 z=yx2를 x에 대해, 그리고 y에 대해 미분한다고 해보자.
dydz=x2,dxdz=2yx
끝이다. 아주 간단하다!
- Gradient
Graident는 편미분 결과를 벡터로 묶은 것이다.
이게 무슨 말이냐고? 한 번 예시를 보면 바로 이해할 것이다.
방금 위에서 예시로 들었던 함수 z=f(x,y)=yx2 의 Gradient를 구해보자.
f(x,y)의 Gradient는 다음과 같다. ⎣⎢⎢⎢⎢⎡dxdzdydz⎦⎥⎥⎥⎥⎤=⎣⎢⎡2yxx2⎦⎥⎤