🧃Gradient, Jacobian, Laplacian, Hessian

MURRAIYA·2022년 12월 3일

optimization, deep learning, computer vision 등 어쨋든 자율주행쪽을 공부하면서 계속 등장하는 Jacobian, Hessian에 대해 짧게 정리하고자 한다.

Math Formula

Jacobian과 Hessian을 이해할 때 이미 익숙한 Gradient와 Laplacian을 떠올리면 이해하기 편하다.
각각의 형태는 아래와 같다.

Gradient

\nabla f=\begin{bmatrix} \partial f \over \partial x_1 \\\partial f \over \partial x_2\\\vdots\\\partial f \over \partial x_n\end{bmatrix}

Jacobian Matrix

J=\begin{bmatrix} \partial f_1 \over \partial x_1 & \partial f_1 \over \partial x_2 & \dots& \partial f_1 \over \partial x_n\\ \partial f_2 \over \partial x_1 & \partial f_2 \over \partial x_2 & \dots & \partial f_2 \over \partial x_n\\ \vdots & \vdots & \ddots & \vdots \\ \partial f_m \over \partial x_1 & \partial f_m \over \partial x_2 & \dots & \partial f_m \over \partial x_n\end{bmatrix}

Laplacian

\nabla^2f = {\partial^2f \over \partial x_1^2} + {\partial^2f \over \partial x_2^2}+ \dots+{\partial^2f \over \partial x_n^2}

Hessian Matrix

H=\begin{bmatrix} \partial^2 f \over \partial x_1^2 & \partial^2 f \over \partial x_1\partial x_2 & \dots& \partial^2 f \over \partial x_1\partial x_n\\ \partial^2 f \over \partial x_2\partial x_1 & \partial^2 f \over \partial x_2^2 & \dots& \partial^2 f \over \partial x_2\partial x_n\\ \vdots & \vdots & \ddots & \vdots \\ \partial^2 f \over \partial x_n\partial x_1 & \partial^2 f \over \partial x_n\partial x_2 & \dots& \partial^2 f \over \partial x_n^2\\ \end{bmatrix}

Gradient

\nabla f=\begin{bmatrix} \partial f \over \partial x_1 \\\partial f \over \partial x_2\\\vdots\\\partial f \over \partial x_n\end{bmatrix}

$\nabla f$ 는 multi variable scalar valued $f(x_1, x_2, \dots, x_n)$ 의 일차 편미분 벡터이다.
그 자체로는 multi variable vector valued funtion

참고: mult/uni variable은 input, vector/scalar valued는 output을 의미함

각 변수로의 일차 편미분으로 구성되어 있다.
이 벡터는 f가 가장 가파르게 증가하는 방향과 그 정도를 나타낸다.
앞에 -를 붙인 $-\nabla f$ 는 f값이 가장 가파르게 감소하는 쪽을 나타내게 된다.

이를 이용하여 아래 방법으로 많이 이용된다.

Gradient Descent for Optimization
$-\nabla f(x)$ 쪽으로 update하여 최소값 탐색
First Order Taylor Expansion
$f(x)\approx f(p)+\nabla f(p)(x-p)$
Edge Detection in Image

Jacobian Matrix🚩

J=\begin{bmatrix} \partial f_1 \over \partial x_1 & \partial f_1 \over \partial x_2 & \dots& \partial f_1 \over \partial x_n\\ \partial f_2 \over \partial x_1 & \partial f_2 \over \partial x_2 & \dots & \partial f_2 \over \partial x_n\\ \vdots & \vdots & \ddots & \vdots \\ \partial f_m \over \partial x_1 & \partial f_m \over \partial x_2 & \dots & \partial f_m \over \partial x_n\end{bmatrix}

$J$ 는 $F:\mathbb{R}^n\rightarrow\mathbb{R}^m$ 인 multi variable vector valued $F(x_1,x_2,\dots,x_n)$ 에 대한 일차 편미분으로 정의된다.
gradient와 차이점이라면 F가 vector valued라는 것.
gradient를 vector valued 함수에 대해서 확장했다고 보면 된다.

F(x_1,x_2,\dots,x_n)= \begin{bmatrix} f_1(x_1,x_2,\dots,x_n)\\ f_2(x_1,x_2,\dots,x_n)\\ \vdots\\ f_m(x_1,x_2,\dots,x_n)\\ \end{bmatrix}

entry 각각은 함수의 형태를 띄지만 원래 함수가 quadratic form인 경우에 한해 상수로 나올 수도 있다.

Jacobian도 일차미분의 정의에 따르기 때문에 선형 근사나 경사 하강법에 그대로 적용할 수 있다.

First Order Taylor Expansion
$F(x)\approx F(p)+J(p)(x-p)$

Laplacian

\nabla^2f = {\partial^2f \over \partial x_1^2} + {\partial^2f \over \partial x_2^2}+ \dots+{\partial^2f \over \partial x_n^2}

$\nabla^2f$ 는 gradient와 마찬가지로 multi variable scalar valued $f(x_1,x_2,\dots,x_n)$ 에 대한 이차 편미분 값의 합으로 정의된다.
Laplacian 자체로는 multi variable scalar valued 로, output은 2차 편미분 값의 합인 scalar이다.

이는 2차미분이니 변화량의 급격한 정도를 나타낸다.

영상처리의 edge detection에서 배워본 사람도 있을텐데 이미지의 pixel값 함수 $I=f(x,y)$ 에 대한 Laplacian은 변화가 있더라도 균일한 부분은 작은 값을, 변화가 급격한 부분은 큰 값을 갖으므로 그냥 미분값에 비해 더 edge스러운 부분을 찾게 해 준다.
다만, 성능차이에 비해서 2차미분에 드는 computation 부담이 커서 실제로 laplacian을 잘 이용하지는 않는다고 한다.

Hessian Matrix🚩

H=\begin{bmatrix} \partial^2 f \over \partial x_1^2 & \partial^2 f \over \partial x_1\partial x_2 & \dots& \partial^2 f \over \partial x_1\partial x_n\\ \partial^2 f \over \partial x_2\partial x_1 & \partial^2 f \over \partial x_2^2 & \dots& \partial^2 f \over \partial x_2\partial x_n\\ \vdots & \vdots & \ddots & \vdots \\ \partial^2 f \over \partial x_n\partial x_1 & \partial^2 f \over \partial x_n\partial x_2 & \dots& \partial^2 f \over \partial x_n^2\\ \end{bmatrix}

$H$ (Hessian Matrix)는 multi variable scalar valued $f(x_1, x_2, \dots,x_n)$ 에 대한 이차 편미분으로 정의된다.

필자의 관심분야에서 Hessian은 optimization 분야에 등장하는 놈이다.

Hessian은 이차미분, 즉 함수의 curvature(곡률)을 나타낸다.
이 성질은 어떤 함수의 최소값에 도달하는 것이 주 목적인 optimizatioin 문제를 푸는 데 자주 이용된다.
$H_{ij}=H_{ji}$ 로 symmetric matrix이다. Symmetic matrix가 가지는 매우 특별한 성질도 optimization에서 이용된다.
Second Order Taylor Expansion
$f(x)\approx f(p)+\nabla f(p)(x-p)+{1 \over 2}(x-p)^TH(p)(x-p)$

❗️ 행렬과 벡터의 제곱을 표현할 때 행렬 앞에 transpose, 뒤에 그것을 다시 곱하여 $x^THx$ 형태로 쓴다 ❕

참고자료:
인하대 김광기 교수님의 수치해석 강의
https://darkpgmr.tistory.com/132
https://angeloyeo.github.io/2020/06/17/Hessian.html

추가정보, 지적 등 댓글 환영합니다.

MURRAIYA

🙃SUJI KIM🙃 🚩 Inha University Undergraduate 🚗 Autonomous Driving Robots 📷 Computer Vision 💫 SLAM

다음 포스트

🧃Gradient, Jacobian, Laplacian, Hessian

Math Formula

Gradient

Jacobian Matrix

Laplacian

Hessian Matrix

Gradient

Jacobian Matrix🚩

Laplacian

Hessian Matrix🚩

🧃Optimization

0개의 댓글