[ML/DL] Activation Functions

yujinkimmn·2023년 1월 27일

ML/DL

목록 보기

2/2

이미지 출처: LG AIMERS 강의자료

Activation Function들의 종류를 정리해보자.

📌 1. Sigmoid

$\sigma (x) = \frac{1}{1+e^{-x}}$

sigmoid function의 문제점

Saturation(포화 상태): input이 엄청 작거나, 큰 값일 때 gradient가 0에 수렴한다.
-> Gradient Vanishing Problem을 야기
: sigmoid 함수의 미분값의 범위가 0~1/4여서 backpropagation을 수행할때마다 gradient가 점점 0으로 수렴하게 되어 학습이 느려진다.
Not zero-centered: sigmoid 함수의 모양을 보면,

이렇게 함수값들이 positive한 값들에 모여있는 것을 볼 수 있다. 이것의 문제점이 무엇인지 알아보자.

만약 $x_1*w_1$ 을 계산해 activation function을 통과시켜 loss를 구하는 일반적인 NN 계산에서 $w_1$ 의 gradient를 구하기 위한 backpropagation을 한다면, $\frac{dL}{dw_1} = \frac{dL}{df}*\frac{df}{dw_1}$ 이 되고, 여기서 $\frac{df}{dw_1}$ 는 $x_1$ 과 같아진다. ( $x_1*w_1$ 를 $w_1$ 에 대해 편미분하면 $x_1$ 이기 때문)

따라서, $w_1$ 의 gradient는 $\frac{dL}{df}$ 에 의해 결정된다! 그런데 이 값은 어느 노드나 backprop 할 때 똑같이 적용되는 값이기 때문에, $w_1$ 이나, $w_2$ 나 모든 w에 대해서 똑같이 적용되고, gradient w들이 모두 항상 같은 방향으로 움직인다.