
딥러닝을 하다 보면 한 가지 오해가 자주 보입니다. “출력 값이 0에 가까우니까 기울기 소실이 발생한다”라고 말하는 경우인데요 — 이건 정확하지 않습니다. 출력 레이어의 추론 결과(activation) 와 역전파 과정에서의 기울기 소실은 서로 다른 층위의 문제입니다. 아래에서 핵심 원인과 수학적 직관, 그리고 실무에서 자주 쓰는 해결책들을 정리해 드릴게요. 😄
오해 정리 — 출력 값(예측) vs. 기울기 소실
- 출력 값이 0에 가깝다: 모델이 (추론 중에) 특정 샘플에 대해 그렇게 예측했다는 뜻입니다.
- Vanishing Gradient(기울기 소실): 학습(역전파) 중에 각 층으로 전달되는 기울기(gradient) 가 층을 거치면서 점점 작아져서 초기 층이 거의 업데이트되지 않는 현상입니다.
=> 즉, 둘은 원인·결과 관계가 아니며, 기울기 소실은 주로 활성화 함수의 도함수와 연쇄법칙 때문에 발생합니다.
🤷♂️ 기울기 소실의 핵심 원인 — 활성화 함수의 도함수
대표적인 예: 시그모이드(sigmoid)

- 시그모이드의 도함수: σ′(z)=σ(z)(1−σ(z))
- 최대값은 0.25 (z=0일 때) — 즉, 도함수 값이 1보다 작고, 포화(saturation)에 들어가면 거의 0에 가까워집니다.
- 역전파 시 여러 층의 도함수들이 계속 곱해지면(연쇄 법칙) 기울기는 기하급수적으로 작아집니다.
예시: 0.2510≈9.54×10−7 — 10개 층을 거치면 거의 0이 됩니다.
이 때문에 입력 쪽(초기) 레이어의 가중치가 거의 업데이트되지 않게 되는 것이죠.
연쇄 법칙(Chain Rule)으로 보는 직관
역전파로 층 1의 가중치 (w1)에 도달하는 기울기는 다음과 같이 표현됩니다.
(activation function이 sigmoid인 경우)
∂w1∂L=∂zn∂L⋅σ′(zn)⋅wn⋅σ′(zn−1)⋅wn−1⋯σ′(z1)⋅x
핵심은 σ′(zi)들이 1보다 작으면 계속 곱해져서 값이 급격히 작아진다는 것 — 이것이 기울기 소실.
간단한 숫자 예: σ′(z3)=0.1, σ′(z2)=0.05, σ′(z1)=0.1 이고 초기 기울기가 1이면, 층1에 도달하는 기울기는 1×0.1×0.05×0.1=0.0005. 거의 0이죠.
💡 실무에서 쓰는 해결책들

-
ReLU (Rectified Linear Unit)
- f(x)=max(0,x). 입력이 양수일 때 도함수는 1.
- 도함수가 1이면 깊은 네트워크에서도 기울기 크기 보존에 도움이 됩니다.
- 단점: 입력이 음수일 때 도함수가 0이 되므로 Dying ReLU 문제가 발생할 수 있음.
-
가중치 초기화 (Xavier, He 등)
- 활성화 입력이 포화 영역으로 쉽게 쏠리지 않도록 초기 분포를 조절합니다.
-
배치 정규화 (Batch Normalization, BN)
- 각 층의 입력 분포를 평균 0, 분산 1로 정규화하여 활성화가 포화 영역에 빠지는 것을 막습니다.
- ReLU와 결합하면 Dying ReLU 발생 확률을 낮춥니다. 또한 학습을 안정화하고 수렴 속도를 높여줍니다.
-
잔차 연결(Residual Connections, ResNet)
- 블록 출력이 H(x)=F(x)+x 형태일 때, 역전파에서 ∂H/∂x=∂F/∂x+1 이므로 항상 1 경로가 존재합니다.
- 즉, F 경로가 기울기를 소실하더라도 (+1) 경로로 기울기가 입력까지 전달되어 초기층 학습이 유지됩니다.
- 결과적으로 매우 깊은 네트워크 학습이 가능해졌습니다.

세 가지 자주 묻는 질문(짧게)
Q1. ReLU가 시그모이드를 완전히 대체해 기울기 소실을 예방하나?
A: 대부분의 경우 예. ReLU는 포화로 인한 기울기 소실을 해결해 깊은 네트워크 학습을 가능하게 했습니다. 다만 ReLU 자체의 단점(Dying ReLU)은 존재합니다. (ReLU 입력값이 계속 음수이면 출력값이 계속 0으로 나오는 형상)
Q2. ReLU면 굳이 BN이 필요한가?
A: 필요합니다. 둘은 서로 다른 문제를 해결합니다. ReLU는 도함수 크기(=1)를 보존하지만, BN은 입력 분포를 관리해 뉴런이 음수 쪽으로 치우치는 걸 막아 Dying ReLU를 예방합니다. 둘의 조합은 매우 강력합니다.
Q3. 잔차 연결은 왜 기울기 소실을 막는가?
A: 역전파 시 (+1) 경로(지름길)가 항상 존재해 기울기가 소실되더라도 최소한 그 경로를 통해 상위 기울기가 하위 레이어까지 전달됩니다. 쉽게 말해 ‘기울기 고속도로’를 만들어 주는 셈입니다.
마무리 — 요약 정리
- 출력 값이 0에 가깝다는 사실 자체가 기울기 소실을 의미하지는 않습니다.
- 기울기 소실은 역전파에서 활성화 함수의 도함수들이 연쇄적으로 곱해질 때 발생합니다.
- ReLU, 적절한 가중치 초기화, 배치 정규화, 그리고 잔차 연결은 기울기 소실을 실무에서 효과적으로 완화해 주는 핵심 기법들입니다.