[DL] 역전파 알고리즘(backpropagation algorithm)

미남잉·2022년 1월 6일

1. 역전파 알고리즘

2. 역전파 알고리즘의 실행 순서

1) 손실 함수 미분

2) 출력 뉴런 미분

3) 은닉 뉴런 미분

4) 역전파 알고리즘 종료

3. 뉴런 관점에서 보는 역전파 알고리즘

4. 계층 단위의 미분

5. 주요 활성 함수의 미분

Reference

딥러닝 교과서

목록 보기

7/15

개념 내용, 이미지 출처: 딥러닝 교과서

이번 글은 오차 역전파 알고리즘(backpropagation algorithm)에 대해 공부하고 정리해보도록 하겠습니다.

신경망에서 경사 하강법을 적용할 때 손실 함수에서 각 가중치까지 신경망의 역방향으로 실행했던 함수를 따라가며 미분을 계산해서 곱했습니다. 만일 이 과정을 모든 파라미터에 대해 개별적으로 진행한다면 같은 미분을 여러 번 반복하는 비효율적인 계산 과정을 거치게 되는데요. 이런 문제를 해결하기 위해 제안된 방법이 오차 역전파 알고리즘(backpropagation algorithm)입니다.

1. 역전파 알고리즘

계산 과정을 그래프로 나타냈습니다.

왼쪽에서 오른쪽으로 진행하는 단계를 순전파(forward propagation)라고 합니다. 입력값 $x$ 는 함수 $f$ 를 거쳐 $y$ 로 순전파되고 있습니다.

반대로 오른쪽에서 왼쪽으로 진행하는 단계를 역전파(backpropagation)이라고 합니다. 빨간색 화살표가 역전파를 의미합니다.

여기서는 하나의 노드만 존재하지만 실제 neural network는 노드가 많은 계산 그래프입니다. 네트워크는 최종적으로 정답과 비교한 다음에 loss를 구합니다.

목적은 neural network의 오차를 줄이는 것이기 때문에 각 parameter별로 loss에 대한 gradient를 구한 뒤 gradient가 향한 쪽으로 parameter들을 업데이트합니다.

입력값 $x$ 에 대한 loss의 변화량, $\frac{∂L}{∂x}$ 를 구할 차례입니다. 이는 미분의 연쇄법칙(chain rule)*에 의해 계산할 수 있습니다.

$\frac{∂L}{∂x}= \frac{∂y}{∂x}*\frac{∂L}{∂y}$

$\frac{∂L}{∂x}$ 는 Loss로부터 흘러들어온 gradient입니다. $\frac{∂L}{∂x}$ 는 현재 입력값에 대한 현재 연산결과의 변화량, 즉 local gradient입니다.

현재 입력값 $x$ 에 대한 loss의 변화량은 loss로부터 흘러들어온 gradient에 local gradient를 곱해서 구해야 합니다.

이 gradient는 다시 앞쪽에 배치돼 있는 노드로 역전파됩니다.

뉴런 $h_m$ 의 또 다른 가중치 $w^1_{n-1m}$ 에 대해 미분한다고 가정하면,

연쇄 법칙(chain rule)으로 미분을 표현해보면 마지막 항인 $\frac{∂z^1_m}{∂w^1_{n-1m}}$ 를 제외한 앞부분의 공통부분이 $w^1_{n-1m}$ 의 미분과 동일하다는 것을 알 수 있습니다.

따라서 공통부분은 한 번 계산해두면 같은 뉴런에 속한 모든 가중치의 미분을 계산할 때 재사용할 수 있습니다.

공통부분의 계산을 중복하지 않기 위해,

손실 함수에서 시작해서 입력 계층 방향으로 계산된 미분값을 역방향으로 전파해주면 됩니다.

이때 각 뉴런의 공통부분에 해당하는 미분값을 오차라고 하며, 오차를 역방향으로 전파하며 미분을 계산한다고 하여

이 방법을 오차의 *역전파 알고리즘이라고 부릅니다.

2. 역전파 알고리즘의 실행 순서

역전파 알고리즘에서 손실 함수부터 시작해 가중치 $w^1_{nm}$ 에 도달할 때까지의 미분 순서를 알아보겠습니다.

1) 손실 함수 미분

역전파 알고리즘에서 손실 함수부터 시작하므로, 먼저 손실 함수에 대한 입력의 미분을 계산해서 출력 계층에 전달합니다.

1️⃣ 손실함수 미분

손실 함수 지역 미분: 손실 함수 $J(y)$ 의 지역 미분 $\frac{∂J}{∂y}$ 를 계산한다.
손실 함수 전역 미분: 손실 함수 전역 미분은 지역 미분 $\frac{∂J}{∂y}$ 과 같다.

2️⃣ 출력 뉴런에 미분 전달

손실 함수 전역 미분 $\frac{∂J}{∂y}$ 를 출력 계층 $O$ 에 전달한다.

2) 출력 뉴런 미분

출력 뉴런 $O$ 는 전역 미분 $\frac{∂J}{∂y}$ 를 전달받고 가중치의 미분을 계산해서 가중치를 업데이트하고,

입력의 미분을 계산해서 은닉 계층에 전달합니다.

$O$ 는 활성 함수 $y=Identity(z^2)$ 와 가중합산 $z^2=w^2_1*a^1_1 + w^2_2*a^1_2 + ... + w^2_m*a^1_m$ 으로 이루어지므로 미분을 별도로 수행해야 합니다.

1️⃣ 공통 부분 계산

활성 함수 지역 미분: 활성 함수 $y=Identity(z^2)$ 의 지역 미분 $\frac{∂y}{∂z^2}$ 를 계산한다.
활성 함수 전역 미분: $\frac{∂J}{∂y}$ 와 $\frac{∂y}{∂z^2}$ 를 곱해서 활성 함수 전역 미분을 계산한다.
공통 부분 계산: 활성 함수의 전역 미분 $\frac{∂J}{∂z^2}$ 이 뉴런의 공통부분이 된다.

2️⃣ 가중치 업데이트

가중치 지역 미분: 가중 합산식 $z^2=w^2_1*a^1_1 + w^2_2*a^1_2 + ... + w^2_m*a^1_m$ 에 대해 가중치별로 지역 미분 $\frac{∂z^2}{∂w^2_1}$ , $\frac{∂z^2}{∂w^2_2}$ , ..., $\frac{∂z^2}{∂w^2_m}$ 을 계산한다.
가중치 전역 미분: 공통 부분 $\frac{∂J}{∂z^2}$ 와 $\frac{∂z^2}{∂w^2_1}$ , $\frac{∂z^2}{∂w^2_2}$ , ..., $\frac{∂z^2}{∂w^2_m}$ 을 곱해서 가중치의 전역 미분 $\frac{∂J^2}{∂w^2_1}$ , $\frac{∂J^2}{∂w^2_2}$ , ..., $\frac{∂J^2}{∂w^2_m}$ 를 계산한다.
가중치 업데이트: $\frac{∂J}{∂w^2_1}$ , $\frac{∂J}{∂w^2_2}$ , ..., $\frac{∂J}{∂w^2_m}$ 를 업데이트한다.

3️⃣ 은닉 계층에 미분 전달

입력 지역 미분: 가중 합산식 $z^2=w^2_1*a^1_1 + w^2_2*a^1_2 + ... + w^2_m*a^1_m$ 에 대해 입력별로 지역 미분 $\frac{∂z^2}{∂w^2_1}$ , $\frac{∂z^2}{∂w^2_2}$ , ..., $\frac{∂z^2}{∂w^2_m}$ 을 계산한다.
입력 전역 미분: 공통 부분 $\frac{∂J}{∂ z^2}$ 과 $\frac{∂z^2}{∂w^2_1}$ , $\frac{∂z^2}{∂w^2_2}$ , ..., $\frac{∂z^2}{∂w^2_m}$ 을 곱해서 입력의 전역 미분 $\frac{∂J}{∂w^2_1}$ , $\frac{∂J}{∂w^2_2}$ , ..., $\frac{∂J}{∂w^2_m}$ 을 계산한다.
은닉 뉴런에 미분 전달: 은닉 뉴런 $h_1, h_2, ..., h_m$ 에 입력의 전역 미분 $\frac{∂J}{∂w^2_1}$ , $\frac{∂J}{∂w^2_2}$ , ..., $\frac{∂J}{∂w^2_m}$ 을 전달한다.

3) 은닉 뉴런 미분

1️⃣ 공통 부분 계산

활성 함수 지역 미분: 활성 함수 $a^1_m=ReLU(z^1_m)$ 의 지역 미분 $\frac{∂a^1_m}{∂z^1_m}$ 을 계산한다.
활성 함수 전역 미분: $\frac{∂J}{∂a^1_m}$ 과 $\frac{∂a^1_m}{∂z^1_m}$ 을 곱해서 활성 함수 전역 미분 $\frac{∂J}{∂z^1_m}=\frac{∂J}{∂a^1_m}*\frac{∂a^1_m}{∂z^1_m}$ 을 계산한다.
공통부분 계산: 활성 함수의 전역 미분이 뉴런의 공통 부분이 된다.

2️⃣ 가중치 업데이트

가중치 전역 미분: 가중 합산 식 $z^2=w^1_{1m}*x_1 + w^1_{2m}*x_2 + ... + w^1_{nm}*x_n$ 에 대해 가중치별로 지역 미분 $\frac{∂z^1_m}{∂w^1_{1m}}$ , $\frac{∂z^1_m}{∂w^1_{2m}}$ , ..., $\frac{∂z^1_m}{∂w^1_{nm}}$ 을 계산한다.
가중치 전역 미분: 공통 부분 $\frac{∂J}{∂z^1_m}$ 과 $\frac{∂z^1_m}{∂w^1_{1m}}$ , $\frac{∂z^1_m}{∂w^1_{2m}}$ , ..., $\frac{∂z^1_m}{∂w^1_{nm}}$ 을 곱해서 가중치의 전역 미분 $\frac{∂J}{∂w^1_{1m}}$ , $\frac{∂J}{∂w^1_{2m}}$ , ..., $\frac{∂J}{∂w^1_{nm}}$ 를 계산한다
가중치 업데이트: $\frac{∂J}{∂w^1_{1m}}$ , $\frac{∂J}{∂w^1_{2m}}$ , ..., $\frac{∂J}{∂w^1_{nm}}$ 으로 가중치 $w^1_{1m}, w^1_{2m}, ..., w^2_{nm}$ 을 업데이트한다.