값이 매우 크거나 작을 때, gradient가 0에 가까워서 backpropagation 하는 데에 어려움이 발생한다. gradient가 사라지는 이 상황을 Vanishing Gradient라고 한다.
Activation function을 취해줌으로써 우리가 원하는 비선형성을 얻을 수 있게 된다.
매 layer가 끝날 때마다 nonlinear activation을 해준다.
Sigmoid
① 0<g(z)<1 => 장점1: binary classification의 output layer라는 특수한 상황에 적합
② g'(z)가 0에 가까운 구간이 많다 => 단점2: gradient descent의 속도 저하
tanh (hyperbolic tangent)
① -1<g(z)<1
② g'(z)가 0에 가까운 구간이 많다 (0<g'(z)<1)
=> 장점1: sigmoid보다는 vanishing gradient가 덜하다.
=> 단점1: gradient descent 속도 저하
ReLU (Rectified Linear Unit)
① g'(z)=1인 구간이 절반이다
=> 장점1: sigmoid, tanh의 vanishing gradient 문제 해결
=> 단점1: 그래도 절반이 gradient가 0 (dying ReLU 현상)
Leaky ReLU
① gradient가 0인 구간이 없다
=> 장점1: dying ReLU 현상을 해결
W들을 initialization 해줘야 한다.