Vanishing gradient(기울기 소실)

신민기·2025년 9월 24일

AI

목록 보기
10/17

Vanishing Gradient

말 그대로 기울기가 소실 되는 것이다.
해결하는 방법이 여러가지 있다.

activation function

기울기 소실은 미분값이 0보다 크고 1보다 작을 때 계속 곱해지면 점점 0에 가까워져 결국 0에 수렴되는 것이다. 그러므로 backpropagation을 할 때 점점 뒤로 갈 수록 paramiter가 갱신되지 않을 수 있다.

이러한 문제는 sigmoid함수에서 일어나는 것을 볼 수 있는데 sigmoid함수는 미분의 최댓값이 1/4이므로 결국 0에 수렴한다.

이렇나 sigmoid의 단점 때문에 대신 Relu나 Leaky Relu 등을 사용한다.

가중치 초기화

Hyper parmiter를 맨 처음 설정할 때 적절한 숫자로 설정한다.
기법으로는 Xavier, He 등이 있다.

Batch Normalization(배치 정규화)

데이터의 분포를 줄여 안정적으로 값들이 너무 커지거나 작아지는 것을 막아줌.

batch data{x1,x2,x3...xmx_1,x_2,x_3... x_m}
xix_i: 배치 안의 입력 값
mm: 배치 크기
ϵϵ: 0으로 나누기 방지용 아주 작은 수
γ,β\gamma,\beta: 학습 가능한 스케일 & 이동 파라미터

1.batch mean
μB=1mi=1mxi\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i

2.batch variance
σB2=1mi=1m(xiμB)2\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2

3.Normalization
xi^=xiμBσB2+ϵ\hat{x_i} = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}

4.scale & bias
yi=γxi^+βy_i = \gamma \hat{x_i} + \beta

다시 조사히기 전체적으로 그 담에 RESNET도 조사하자

profile
AI 어렵다

0개의 댓글