미래연구소
http://futurelab.creatorlink.net/
Z에 sigmoid함수를 씌어 activation값을 구함
Data의 개수를 n개, Data의 dim nx개:
X=[x1, x2, x3 ..., xn] -> (nx, n)
Zi[l][k]: k번째 data로 붙터 얻은 l번째 layer의 i번째 component
*vanishing gradient:
activation의 미분계수가 0에 가까워지면 gradient descent가 일어나지 않으며 학습이 잘 일어나지 않게된다.
*Sigmoid:
장점: binary classification의 output layer라는 특수한 상황에 적합
단점: gradient descent 속도 저하
*tanh(hyperbolic tangent)
장점: sigmoid보다는 vanishing gradient가 덜함
단점: gradient descent 속도 저하
*ReLU(Rectified Linear Unit)
장점: sigmoid, tanh의 vanishing gradient 문제 해결
단점: 그래도 절반이 gradient가 0 (dying ReLu)
*Leaky ReLU
장점: dying ReLu현상을 해결(GAN과 같은 train이 어려운 경우에 사용)