https://www.quora.com/What-is-activation-function-and-how-many-types-of-it-Which-one-is-the-best
신경망의 활성화 함수는 '비선형 함수'를 사용함
비선형 함수를 사용하는 이유
https://analyticsindiamag.com/what-are-activation-functions-and-when-to-use-them/
대표적인 활성화 함수는 'sigmoid function'인데, Layer가 깊어질 수록 Gradient Vanishing 현상 발생 문제가 발생할 수 있어 잘 사용되지 않음.
ReLU는 sigmoid function의 문제를 어느정도 해결한 활성화 함수로 Gradient Vanishing가 일어나는 것을 일부 완화시켜줌