[Good Ref] https://deepinsight.tistory.com/m/113
신경망에서 비선형성을 주기 위한 활성화 함수(Activation Function)

ReLU -> 음수는 취급하지 않음
GELU -> 0과 가까운 음수는 취급 멀어질 수록 취급하지 않음, 너무 먼 값은 의미가 없다 판단.
ELU -> 모든 수를 취급함.
신경망은 "가중치 조절"로 학습

모든 레이어가 선형 변환만 한다면 복잡한 패턴을 학습하고 답을 내놓을 수 없음.
그렇기 때문에 비선형성의 활성화 함수를 레이어에 넣어 학습시킴.
역전파는 이제 가중치를 피드백 하는 과정이고, 그때 미분이 필요하며 활성화 함수를 통해 그 값을 조절하는거다. 그 방식에는 ReLU GELU ELU가 있는거지

Sequence of the PreTraining
Foward Propagation
Loss Caculation
Back Propagation