딥러닝에서 비선형 활성화 함수를 사용하는 이유?

선형함수란?

선형함수는 $y = ax +b$ 와 같이 x값의 배수를 출력하는 함수를 말합니다.
즉, 1개의 곧은 직선을 말하는 것이죠

그렇다면 왜 딥러닝에서는 선형함수를 사용하면 안되는 것 일까요?

해답은 바로 은닉층을 깊게 쌓는 의미가 없기 때문입니다.

만약 선형 활성화 함수 $f(x) = ax$ 라는 식이 있다고 가정해보겠습니다.

이때 은닉층이 3층으로 이루어질 경우 식으로 표현한다면 다음과 같습니다.

$y= f(f(f(x)))$
즉, $y = a^{3}x$ 가 되게 됩니다.

처음 $f(x)$ 의 값과 비교해 봤을 때 차이가 없습니다.
그냥 $a$ 자리에 $a^3$ 이 들어갔을 뿐이죠

이는 곧 층을 깊게하는 의미가 없다는 뜻이기도 합니다.

따라서 딥러닝의 활성화 함수는 반드시 비선형 함수를 쌓아야 합니다.
그래서 층이 많을 수록, 깊어질 수록 영향을 받기 때문입니다.

딥러닝 지식의 백지에서 깜지까지