위 함수와 같이 어떤 input이 들어와도 0 ~ 1 사이의 값을 output으로 냅니다.
sigmoid의 반환 값은 확률 형태이기 때문에 결과를 확률로 해석할 때 유용합니다.
하지만 gradient를 역전파 할 때 양 극단의 경우 gradient가 거의 0이고 양 극단이 아니더라도 gradient의 최대 값이 1보다 작기 때문에 Vanishing gradient problem이 발생합니다.
Vanishing gradient
역전파 시 레이어들을 거쳐가면서 곱하기 연산이 일어나고 레이어 계층이 깊을 수록 기울기가 사라지는 현상
sigmoid를 보완하고자 나온 함수이다.
입력 신호를 (-1, 1) 사이의 값으로 normalization 한다.
거의 모든 방면에서 sigmoid 보다 성능이 좋지만 그럼에도 불구하고 Vanishing gradient 문제가 발생한다.
우리 뇌의 뉴런의 동작방식을 모방해서 만들었다고 하며 0 이하의 Input을 무시하는 특성이 있습니다.
활성화 되었을 때 ReLU의 gradient는 언제나 1이기 때문에 Vanishing gradient problem으로부터 자유롭습니다.
다만 0에서 미분불가능하다는 단점이 있습니다.
LeakyReLU는 ReLU의 변형인데 ReLU와 다르게 0이하의 값을 완전히 무시하지 않고 값을 알파 비율로 줄여 전파합니다.
또한 역전파할 때도 알파 만큼의 gradient를 주어 학습에 적게나마 활용합니다.
일반적으로 알파를 0.01로 설정합니다.