Optimization (6주차) (1)

박성철 | 수리데이터사이언스학과 | 한양대(ERICA) ·2026년 4월 9일

딥러닝

Loss Functions

정의 : 모델이 얼마나 못했는지 측정하는 함수이다. 파라미터가 주어졌을때, 성능을 숫자로 평가한다.

General Goal of Optimization Algorithm

머신러닝에서 우리가 궁긍적으로 하고 싶은 것은 모델의 성능을 최대한 좋게 만드는 것이다. 이 목표는 수식으로 다음과 같이 표현된다.

$\hat{\phi} = \arg \min_{\phi} L[\phi]$

Loss Function의 파라미터로 만든 모델이 데이터에 얼마나 안맞는지를 수치로 표현한 것이다.

Gradient Descent

Gradient Descent는 Loss를 최소화 하는 파라미터를 찾는 대표적인 최적화 알고리즘이다.

기본 설정

파라미터 :

$\phi = [\phi_0, \phi_1, \dots, \phi_N]^T$
Loss 함수 :

$L[\phi]$

Step 1 : Gradient 계산

이 벡터는 각 파라미터에 대한 기울기이다.

의미 :

각 요소는 이 파라미터를 조금 바꾸면 Loss가 얼마나 편하는지를 보인다.
즉, Loss가 증가하는 방향을 알려주는 벡터이다.

Step 2 : 파라미터 업데이트

의미 :
기울기의 반대방향으로 이동한다. (내리막 방향)

Gradient 는 가장 가파르게 올라가는 방향이고, 우리는 최소값을 찾는중이다. 즉, 그 반대로 가야 내려간다.

Gradient Descent는 Loss를 줄이기 위해 기울기의 반대방향으로 파라미터를 계속 업데이트하는 방법이다.

Linear Regression

Step 1. Compute the derivatives of the loss with respect to the parameters:

$L[\phi] = \sum_{i=1}^{I} \ell_i = \sum_{i=1}^{I} (\mathrm{f}[x_i, \phi] - y_i)^2$

$= \sum_{i=1}^{I} (\phi_0 + \phi_1 x_i - y_i)^2 ,$

$\frac{\partial L}{\partial \phi} = \frac{\partial}{\partial \phi} \sum_{i=1}^{I} \ell_i = \sum_{i=1}^{I} \frac{\partial \ell_i}{\partial \phi},$

$\frac{\partial \ell_i}{\partial \phi} = \begin{bmatrix} \frac{\partial \ell_i}{\partial \phi_0} \\ \frac{\partial \ell_i}{\partial \phi_1} \end{bmatrix} = \begin{bmatrix} 2(\phi_0 + \phi_1 x_i - y_i) \\ 2x_i(\phi_0 + \phi_1 x_i - y_i) \end{bmatrix}$