-
y는 label이므로 학습 대상이 아니다.
-
Chain Rule에 의해 오차 값이 모든 node에 전달되어 오차에 비례하여 모든 가중치가 갱신된다.
- w(1)의 변화가 E에 직접 영향 주는 것은 아니지만 일정 비율 영향을 미친다.
- ∂w(1)∂E: w(1)이 바뀔 때 E가 변화하는 비율
- w(1)의 변화 →z(1)의 변화 →a(1)의 변화 →w(2)의 변화 →z(2)의 변화 →a(2)의 변화 →w(3)의 변화 →z(3)의 변화 →a(3)의 변화 →E의 변화
![](https://velog.velcdn.com/images/hyeon-ii/post/7c467db4-f48b-4b40-83ad-1220bb225066/image.png)
-
Cahin Rule을 적용하면 layer 개수가 아무리 많아도 모든 층에서 가중치에 대한 편미분 값을 구할 수 있다.