Vanishing gradient(기울기 소실)

신민기·2025년 9월 24일

AI

목록 보기

10/17

말 그대로 기울기가 소실 되는 것이다.
해결하는 방법이 여러가지 있다.

기울기 소실은 미분값이 0보다 크고 1보다 작을 때 계속 곱해지면 점점 0에 가까워져 결국 0에 수렴되는 것이다. 그러므로 backpropagation을 할 때 점점 뒤로 갈 수록 paramiter가 갱신되지 않을 수 있다.

이러한 문제는 sigmoid함수에서 일어나는 것을 볼 수 있는데 sigmoid함수는 미분의 최댓값이 1/4이므로 결국 0에 수렴한다.

이렇나 sigmoid의 단점 때문에 대신 Relu나 Leaky Relu 등을 사용한다.

Hyper parmiter를 맨 처음 설정할 때 적절한 숫자로 설정한다.
기법으로는 Xavier, He 등이 있다.

데이터의 분포를 줄여 안정적으로 값들이 너무 커지거나 작아지는 것을 막아줌.

batch data{ $x_1,x_2,x_3... x_m$ }
$x_i$ : 배치 안의 입력 값
$m$ : 배치 크기
$ϵ$ : 0으로 나누기 방지용 아주 작은 수
$\gamma,\beta$ : 학습 가능한 스케일 & 이동 파라미터

1.batch mean
$\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i$

2.batch variance
$\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$

3.Normalization
$\hat{x_i} = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$

4.scale & bias
$y_i = \gamma \hat{x_i} + \beta$

AI 어렵다