딥러닝 네트워크에서 각 노드들은 입력값을 받으면 위 그림처럼 특정 함수를 거친 후 다음 레이어로 전달한다. 이 때 사용하는 함수가 활성화 함수이다.
활성화 함수는 선형 함수일 시 레이어를 여러 겹 쌓는 것의 의미가 상실되기 때문에 일반적으로 비선형 함수이다.
각 함수마다 가지고있는 장 단점이 있으며, 이를 잘 선택해야 한다.
Logistic 함수라고도 불리는 이 함수는 한때 가장 많이 사용되어오던 함수이다.
멀티퍼셉트론에서 비선형의 값을 얻기 위해 사용되었다.
미분 경과가 간결하고 사용하기 쉬운 장점이 있다.
하지만 최근에는 아래의 이유로 잘 사용되지 않는다.
Vanishing Gradient
현상이라고 한다.함수의 중심을 0으로 설정해 Sigmoid
함수의 zigzag
문제를 보완했다.
하지만 Vanishing Gradient
의 문제는 여전히 남아있다.
이 함수는 Sigmoid
와 tanh
함수가 가지는 Vanishing Gradient
문제를 해결할 수 있다.
Dying ReLU
문제가 존재한다.Dying ReLU
문제를 보완하기 위해 고안된 함수이다.
다른 특징은 ReLU와 동일하다.
여러개의 선형 함수 중 최댓값을 출력한 함수이다.
ReLU의 장점을 모두 가지고, Dying ReLU
의 문제를 해결했다.
하지만, 계산해야 하는 양이 많고 복잡해진다는 단점이 있다.
ReLU의 장점을 모두 가지고, Dying ReLU
의 문제를 해결했다.
x<0에서 지수함수를 계산하는 비용이 발생한다.