➡️ 입력정보를 merge해서 high-level information로 바꾸는 역할
➡️ net value : activation function을 통과시키기 전 값
: input layer 1개, output layer 1개
➡️ 수렴을 결정하는데 중요한 역할!!
Limitation of Single-layer perception : XOR
➡️ Classification using multiple lines
A.k.a. Non-linearity functions
➡️ 확률로
➡️ scalar값을 vector로 미분➡️ vector값을 vector로 미분
벡터끼리의 chain rule은 matrix * vector로 나타냄
➡️ 출력 gradient * jacobian matrix = 앞쪽(input쪽) gradient
➡️ weight에 대한 gradient만 계산