[모두를 위한 딥러닝] #Why Relu?(not sigmoid)_ 2022.06.01

김고은·2022년 5월 31일
0

Deep Learning Zero To All

목록 보기
12/13

why not sigmoid?

gradient => 그래프로 표현 =>

vanishing Gradient

매우 작은 gradient값을 전달받아, 계속 곱해지면서, 결국 값이 손실되는 현상

Why Relu?

x가 0보다 크면 gradient는 y=x의 기울기 즉 항상 1이다 = 자기 자신의 값을 갖는다
=> 잘 전달됨

문제: x가 0보다 크면 gradient값이 0이 되어, 값이 아예 전달되지 않음
그럼에도 Relu를 많이 쓰는 이유는 간단하기 때문!

그 외의 activation functions

leaky relu

relu가 x가 0보다 작은 값이 들어올 때, gradient가 0이 될 때 발생하는 문제점을 보완한 activation function.
=> 0보다 크고 아주 작은 값을 가짐(x가 0보다 작을 때)
단 acitvation function이 아니라 layer 에 존재함.

profile
veloger

0개의 댓글