Activation Function

Jyoung·2024년 8월 22일

Activation Function?

🔥활성화 함수(Activation Function)는 심층 신경망(Deep Neural Network, DNN)에서 은닉층의 레이어를 활성화해주기 위해 사용되는 함수이다.

위와 같은 MLP(Multi Layer Perceptron)가 있다고 할 때, Hidden Layer 1에서 Hidden Layer 2로 전달되기 전에 각 노드에서 활성화 함수를 거쳐 계산한 후 다음 레이어로 전달한다.
퍼셉트론에서 활성화 함수를 계산하는 과정은 다음과 같다.

이러한 활성화 함수에는 ReLU, Sigmoid, tanh 등 다양하게 존재하고, 이들의 공통점은 선형적이지 않은 비선형적 함수라는 것이다.

Why Non-Linear?

🧐 왜 활성화 함수가 선형 함수이면 안되는 걸까?

위와 같은 인공신경망이 있다고 하자.
그렇다면 input 값은 $\overrightarrow{x} = \begin{bmatrix}x_1\\x_2\\ \end{bmatrix}$ , 첫 번째 가중치 행렬은 $W_1 = \begin{bmatrix}w_1&w_2\\w_3&w_4\\w_5&w_6 \end{bmatrix}$ , 첫 번째 편향은 $\overrightarrow{b_1} = \begin{bmatrix}b_1\\b_2\\b_3 \end{bmatrix}$ 와 같이 나타낼 수 있다.

이를 바탕으로 첫 번째 Hidden layer의 값은 아래와 같다.

$W_1\overrightarrow{x}+\overrightarrow{b_1} = \begin{bmatrix}w_1&w_2\\w_3&w_4\\w_5&w_6 \end{bmatrix}\begin{bmatrix}x_1\\x_2\\ \end{bmatrix}+\begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix}=\begin{bmatrix}x _{1} w _{1} +x _{2} w _{2} +b _{1} \\x _{1} w _{3} +x _{2} w _{4} +b _{2} \\x _{1} w _{5} +x _{2} w _{6} +b _{3}\end{bmatrix}$

첫 번째 Hidden Layer에서 다음 Layer로 넘어가기 전 활성화 함수 $f_1$ 을 거치게 되며, 따라서 다음 Layer에 전달되는 값은 아래와 같다.

$f_1(\begin{bmatrix}x _{1} w _{1} +x _{2} w _{2} +b _{1} \\x _{1} w _{3} +x _{2} w _{4} +b _{2} \\x _{1} w _{5} +x _{2} w _{6} +b _{3}\end{bmatrix})$

지금의 방식과 똑같이 적용하면 두 번째 Layer에서 다음 Layer로 전달되는 값은
$f_2(W_2f_1(\begin{bmatrix}x _{1} w _{1} +x _{2} w _{2} +b _{1} \\x _{1} w _{3} +x _{2} w _{4} +b _{2} \\x _{1} w _{5} +x _{2} w _{6} +b _{3}\end{bmatrix})+\overrightarrow{b_2})$ 일 것이다.

그런데 이때 만약 활성화 함수 $f_1$ 과 $f_2$ 가 $y=x$ 꼴의 선형 함수라고 해보자.

그러면 위의 식은

$W_2\begin{bmatrix}x _{1} w _{1} +x _{2} w _{2} +b _{1} \\x _{1} w _{3} +x _{2} w _{4} +b _{2} \\x _{1} w _{5} +x _{2} w _{6} +b _{3}\end{bmatrix}+\overrightarrow{b_2} = W_2(W_1\overrightarrow{x}+\overrightarrow{b_1})+\overrightarrow{b_2}=W_2W_1\overrightarrow{x} + W_2\overrightarrow{b_1}+\overrightarrow{b_2}$ 이고

$W_2W_1$ 을 2x2 크기의 행렬 $W$ 로, $W_2\overrightarrow{b_1}+\overrightarrow{b_2}$ 를 2x1 크기의 벡터 $\overrightarrow{b}$ 로 치환하여 표현하면

$W\overrightarrow{x}+\overrightarrow{b}$ 이다.

해당 식은 마치 $W$ 라는 가중치 행렬과 $\overrightarrow{b}$ 라는 편향을 바탕으로 계산된 식과 같다. 우리는 여러 Layer를 쌓기를 원했으나 실질적으로는 하나의 Layer를 거친 것과 다르지 않다는 것이고, 이는 우리가 MLP에서 Multi-Layer를 설계한 근본적인 이유가 반영되지 않았다는 것이다. 꼭 $y=x$ 가 아니더라도 $y=ax+b$ 의 일반적인 선형 함수가 활성화 함수로 사용되어도 결과는 같다.