역전파는 gradient를 얻기 위해서 chain rule을 사용하는데요, 대략적인 순서는 다음과 같습니다.
함수에 대한 computational graph 만들기
각 local gradient 구해놓기
chain rule
z에 대한 최종 loss L은 이미 계산되어 있다.
최종 목적지는 input에 대한 gradient를 구하는 것
chain rule
연쇄 법칙은 y에 대한 z의 순간 변화율과 x에 대한 y의 순간 변화율을 알면 x에 대한 z의 순간 변화율을 두 변화율의 곱으로 계산할 수 있다고 말합니다.
computational graph
계산 그래프