CNN(2)

Q·2025년 8월 25일

ML engineer

목록 보기
8/18

기울기 소실(Vanishing Gradient)

1. 정의

  • 기울기 소실(Vanishing Gradient)은 역전파(backpropagation) 과정에서, 출력층에서 입력층으로 갈수록 기울기(gradient)가 점점 작아지는 현상을 말한다 ( 미분이 계속 되니까 계속 작은 값(특히 sigmoid/tanh의 미분 값)이 곱해져 0에 수렴하여 기울기가 소실 )

  • 기울기 소실 문제는 특히 깊은 모델(VGG 같은)에서 정말 중요한 이슈이다. 그래서 현대의 네트워크는 ReLU, BatchNorm, ResNet, DenseNet 등 구조적·기법적 해결을 기반으로 설계되고 있다.

  • 층이 깊어질수록 이 현상이 심화되어 초기 층의 가중치가 거의 업데이트되지 않음, 즉 학습이 제대로 이루어지지 않게 됩니다.

2. 원인

  • 활성화 함수의 포화

    • 시그모이드(sigmoid)나 tanh 함수는 입력이 극단적일 때 gradient가 거의 0에 수렴.
    • 이러한 작은 도함수들이 계속 곱해지면 gradient는 급격히 줄어듦.
  • 신경망 깊이

    • 많은 층을 거치면서 gradient가 계속 전파되기 때문에, 점점 작아지는 효과가 누적됨.
  • 가중치 초기화 문제

    • 가중치가 너무 작게 초기화되면, gradient가 거의 사라지는 수준까지 작아질 수 있음.

3. 해결 방법

  1. ReLU 활성화 함수 사용
  • 음수 이하는 0, 양수 구간에서는 gradient가 1이므로 gradient 소실 문제를 완화함  .
  1. Batch Normalization 적용
  • 각 층의 입력을 정규화하여 gradient 흐름을 안정화시키고 학습을 빠르게 → vanishing/exploding gradient를 완화함
  1. Residual Connection (ResNet)
  • 층 간 스킵 연결을 통해 gradient가 직접 흐르게 하여 소실을 방지함. 아주 깊은 네트워크에서도 학습이 가능하게 함
  1. DenseNet 구조
  • 각 층이 바로 뒤의 모든 층과 연결되는 구조로, gradient 흐름이 원활하고 feature reuse가 가능함
profile
Data Engineer

0개의 댓글