다층 퍼셉트론 오차역전파 적용시, 입력층으로 갈수록 기울기가 작아지는 현상
gadient vanishing 이유
- activation function으로 적용한 sigmoid함수
sigmoid 미분
- 시그모이드 미분은 무조건 1보다 작음
다층 퍼셉트론 구조와 sigmoid
- 오차 역전파 계산시, activation function도 미분
- activation function 미분 값이 1보다 작을 경우, 레이어가 입력에 가까울수록 해당 값이 0에 가까워질 수 있음(gradient vanishing 현상)
gradient vanishing 이슈 해결 방안
- ReLU함수
- 미분값은 x>=0일떄 1, x<0일떄 0이므로, gradient vanishing 이슈를 어느정도 보완
- x>=0이면 미분이 1이므로, 학습속도가 sigmoid보다 빠른편 (sigmoid 함수는 x값이 커지면 y가 1에 가까워지므로, 기울기가 낮아져 학습속도가 현저히 낮아짐)
주요 수식
- NAG 방식은 wt 위치에서 wt+1의 gradient를 계산하고자함
앞 단계의 gradient를 근사해 현재의 momentum을 조정
수식 이해
gt= t번째 gradient
- 오래된 데이터의 값을 작게해 lr의 감쇠를 막는 RMSProp 방식