기울기 소실(Vanishing Gradient)은 역전파(backpropagation) 과정에서, 출력층에서 입력층으로 갈수록 기울기(gradient)가 점점 작아지는 현상을 말한다 ( 미분이 계속 되니까 계속 작은 값(특히 sigmoid/tanh의 미분 값)이 곱해져 0에 수렴하여 기울기가 소실 )
기울기 소실 문제는 특히 깊은 모델(VGG 같은)에서 정말 중요한 이슈이다. 그래서 현대의 네트워크는 ReLU, BatchNorm, ResNet, DenseNet 등 구조적·기법적 해결을 기반으로 설계되고 있다.
층이 깊어질수록 이 현상이 심화되어 초기 층의 가중치가 거의 업데이트되지 않음, 즉 학습이 제대로 이루어지지 않게 됩니다.
활성화 함수의 포화
신경망 깊이
가중치 초기화 문제