
➡️ 입력정보를 merge해서 high-level information로 바꾸는 역할




➡️ net value : activation function을 통과시키기 전 값

: input layer 1개, output layer 1개




➡️ 수렴을 결정하는데 중요한 역할!!


Limitation of Single-layer perception : XOR
➡️ Classification using multiple lines

A.k.a. Non-linearity functions



➡️ 확률로




➡️ scalar값을 vector로 미분
➡️ vector값을 vector로 미분

벡터끼리의 chain rule은 matrix * vector로 나타냄
➡️ 출력 gradient * jacobian matrix = 앞쪽(input쪽) gradient








➡️ weight에 대한 gradient만 계산
