Gradients (7주차)(1)

박성철 | 수리데이터사이언스학과 | 한양대(ERICA) ·2026년 4월 20일

Loss Function

Training Dataset of I pairs of input/output examples
$\{x_i, y_i\}_{i=1}^I$
$x_{i}$ : i번째 입력값
$y_{i}$ : i번째 정답값
I : 전체 데이터 개수
Loss function or cost function measures how bad model is
$L[\phi, f[x_i, \phi], \{x_i, y_i\}_{i=1}^I]$

손실함수는 "모델의 성능을 수치로 평가하는 기준"이고, 학습은 이 손실을 최소화 하는 방향으로 진행된다.

DNN Example

Problem 1 : Computing Gradients

딥러닝에서 Loss Function과 Gradient는 왜 필요할까?

모델은 예측을 한다. 그런데 예측이 틀렸는지 맞았는지를 어떻게 판단할까? 그리고 틀렸다면 파라미터를 어떤 방향으로 바꿔야 할까? 이 질문에 답하는 개념이 바로 Loss Function과 Gradient 이다.

손실을 줄이려면 어느 방향으로 가야할까?
손실함수를 정의했다고 해서 학습이 끝나는 것은 아니다. 이제는 손실을 줄이기 위해 파라미터를 어떻게 바꿔야 하는지 알아야 한다. 이때 필요한 정보가 Gradient 이다.

SGD 설명

$\phi_{t+1} \leftarrow \phi_t - \alpha \sum_{i \in \mathcal{B}_t} \frac{\partial \ell_i[\phi_t]}{\partial \phi}$

SGD는 현재 배치에서 계산한 gradient를 이용해 손실이 줄어드는 방향으로 파라미터를 조금씩 이동시키는 알고리즘이다.

왜 미분해야 하는가

모델의 파라미터가 구성되어있자면, 학습을 위해서는 각 파라미터에 대해 손실을 미분해야 한다. 즉, 결국 해야 할 일은 "손실이 각 파라미터에 얼마나 민감한가"를 계산하는 것이다.

박성철 | 수리데이터사이언스학과 | 한양대(ERICA)

열심히 하겠습니다.

이전 포스트

Signal Detection Theory for Decision Making (4주차)

다음 포스트

Loss Function 연습문제

0개의 댓글