기울기 소실 (Vanishing Gradient): 왜 깊은 신경망이 학습을 못할까?

Bean·2025년 11월 13일

ReLU Resnet VanishingGradient batchnormalization 딥러닝 딥러닝원리 활성화함수

인공지능

목록 보기

135/184

딥러닝을 하다 보면 한 가지 오해가 자주 보입니다. “출력 값이 0에 가까우니까 기울기 소실이 발생한다”라고 말하는 경우인데요 — 이건 정확하지 않습니다. 출력 레이어의 추론 결과(activation) 와 역전파 과정에서의 기울기 소실은 서로 다른 층위의 문제입니다. 아래에서 핵심 원인과 수학적 직관, 그리고 실무에서 자주 쓰는 해결책들을 정리해 드릴게요. 😄

오해 정리 — 출력 값(예측) vs. 기울기 소실

출력 값이 0에 가깝다: 모델이 (추론 중에) 특정 샘플에 대해 그렇게 예측했다는 뜻입니다.
Vanishing Gradient(기울기 소실): 학습(역전파) 중에 각 층으로 전달되는 기울기(gradient) 가 층을 거치면서 점점 작아져서 초기 층이 거의 업데이트되지 않는 현상입니다.
=> 즉, 둘은 원인·결과 관계가 아니며, 기울기 소실은 주로 활성화 함수의 도함수와 연쇄법칙 때문에 발생합니다.

🤷‍♂️ 기울기 소실의 핵심 원인 — 활성화 함수의 도함수

대표적인 예: 시그모이드(sigmoid)

시그모이드의 도함수: $\sigma'(z) = \sigma(z)(1-\sigma(z))$
최대값은 0.25 (z=0일 때) — 즉, 도함수 값이 1보다 작고, 포화(saturation)에 들어가면 거의 0에 가까워집니다.
역전파 시 여러 층의 도함수들이 계속 곱해지면(연쇄 법칙) 기울기는 기하급수적으로 작아집니다.

예시: $0.25^{10} \approx 9.54\times10^{-7}$ — 10개 층을 거치면 거의 0이 됩니다.
이 때문에 입력 쪽(초기) 레이어의 가중치가 거의 업데이트되지 않게 되는 것이죠.

연쇄 법칙(Chain Rule)으로 보는 직관

역전파로 층 1의 가중치 ( $w_1$ )에 도달하는 기울기는 다음과 같이 표현됩니다.
(activation function이 sigmoid인 경우)

\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial z_n}\cdot \sigma'(z_n)\cdot w_n \cdot \sigma'(z_{n-1})\cdot w_{n-1}\cdots \sigma'(z_1)\cdot x

핵심은 $\sigma'(z_i)$ 들이 1보다 작으면 계속 곱해져서 값이 급격히 작아진다는 것 — 이것이 기울기 소실.

간단한 숫자 예: $\sigma'(z_3)=0.1,\ \sigma'(z_2)=0.05,\ \sigma'(z_1)=0.1$ 이고 초기 기울기가 1이면, 층1에 도달하는 기울기는 $1\times0.1\times0.05\times0.1=0.0005$ . 거의 0이죠.

💡 실무에서 쓰는 해결책들

ReLU (Rectified Linear Unit)
- $f(x)=\max(0,x)$ . 입력이 양수일 때 도함수는 1.
- 도함수가 1이면 깊은 네트워크에서도 기울기 크기 보존에 도움이 됩니다.
- 단점: 입력이 음수일 때 도함수가 0이 되므로 Dying ReLU 문제가 발생할 수 있음.
가중치 초기화 (Xavier, He 등)
- 활성화 입력이 포화 영역으로 쉽게 쏠리지 않도록 초기 분포를 조절합니다.
배치 정규화 (Batch Normalization, BN)
- 각 층의 입력 분포를 평균 0, 분산 1로 정규화하여 활성화가 포화 영역에 빠지는 것을 막습니다.
- ReLU와 결합하면 Dying ReLU 발생 확률을 낮춥니다. 또한 학습을 안정화하고 수렴 속도를 높여줍니다.
잔차 연결(Residual Connections, ResNet)
- 블록 출력이 $H(x) = F(x) + x$ 형태일 때, 역전파에서 $\partial H/\partial x = \partial F/\partial x + 1$ 이므로 항상 1 경로가 존재합니다.
- 즉, F 경로가 기울기를 소실하더라도 (+1) 경로로 기울기가 입력까지 전달되어 초기층 학습이 유지됩니다.
- 결과적으로 매우 깊은 네트워크 학습이 가능해졌습니다.