Backpropagation(오차역전파)란...

신민기·2025년 8월 12일

AI

목록 보기

5/17

가중치에 대한 손실함수의 기울기를 구하는 방식이다.

이러한 backpropagation은 말 그대로 역순으로 gradient를 구하는 것인데 이 때 합성 미분법의 성질인 chain rule(연쇄 법칙)이 필요하다.

chain rule은 합성 함수를 미분할 때 겉함수와 속함수를 곱하는 과정을 거치는데 이를 말한다.

$T(x) = f(g(x))$ 라 하면

T'(x) = \lim_{h \to 0} \frac{T(x + h) - T(x)}{h}

= \lim_{h \to 0} \frac{f(g(x + h)) - f(g(x))}{h}

= \lim_{h \to 0} \frac{f(g(x + h)) - f(g(x))}{g(x + h) - g(x)} \times \frac{g(x + h) - g(x)}{h}

= f'(g(x)) \, g'(x)

입력 데이터를 처음부터 끝까지 흘려보내고 각 노드의 출력 값을 저장해 둡니다.
마지막에 손실(Loss)을 계산합니다.

손실의 미분값을 출력층부터 시작.
각 노드의 국소 미분(자기 입력→출력 변화율)을 계산.
그 미분값에 전달받은 기울기를 곱해 이전 노드로 보냄.
모든 가중치에 대해 ∂Loss/∂Weight를 구함.

수치 미분으로 구하는 것보다 훨씬 효율적이기 때문

모델의 깊이가 깊을수록 기울기 손실이 일어날 확률이 높음.

AI 어렵다