<심플 예제>
역전파를 통해 각 미분값을 구함.
정리하자면..
75p ~
forward pass에서 중요한 것은 forward pass 값을 cache해야 하는 것이다. 물론 x,y 값도 저장
backward pass에서 chain rule을 사용해야 하기 때문에.
=요약=
사람은 신경망과 뇌 사이에서 많은 유추와 여러 종류의 생물학적 영감을 이끌어낸다.
(Before) Linear score function: f=Wx
(Now) 2-layer Neural Network: f=W2max(0,W1x) == Relu
(처음에3072개의 x가 들어오면 w1과 곱해져서 h(hidden)노드에 들어가고 다시 w2를 통해 10개의 출력값이 나오게 된다.)
히든 노드가 100개면 우리는 서로 다른 100개의 분류기를 가지고 있는 것이다.
3-layer는 f = W3max(0, W2max(0,W1x))
input이 있으면 그것에 따른 w를 곱해서 그걸 어떤 활성화 함수를 통해 거쳐서 output으로 나가는..
<뉴런의 다이어그램>
서로 연결된 많은 뉴런은 수상돌기를 가지고 있는데, 그것들은 뉴런에 들어온 신호를 받는다.
그리고 세포체와 합친 후의 모든 신호는 'axon'을 통해 다음 뉴런과 다른 세포체로 이동한다.
어떠한 활성화 함수를 써야할까?
일반적으로 ELU → LeakyReLU → ReLU → tanh → sigmoid 순으로 사용한다고 한다. cs231n 강의에서는 ReLU를 먼저 쓰고 , 그다음으로 LeakyReLU나 ELU 같은 ReLU Family를 쓰며, sigmoid는 사용하지 말라고 하고 있다.