오차 역전파(Back propagation)

미남로그·2022년 1월 22일

참고 자료

저는 위의 자료를 바탕으로 해당 포스팅을 정리하였습니다. 이미지 출처도 동일합니다.

사실 이전에 오차 역전파를 정리한 적이 있습니다.

같은 주제로 또 정리하는 이유는 이때 계산 과정에 집중해서 보아서 개념에 대한 이해가 완벽히 안 된 것 같고, 계산 과정을 간단하게 복습하기 위함입니다.

기초 개념을 보고 싶다면 해당 포스팅, 수식 과정을 더 자세히 보고 싶다면 이 포스팅(위와 같음)을 추천 드립니다!

선형 회귀를 배웠다면

가중치(weight)와 바이어스(bias)

의 개념을 알고 있을 겁니다.

우리는 임의의 가중치를 선언하고 결괏값을 이용해 오차를 구합니다.

이 오차가 최소인 지점으로 계속해서 조금씩 이동 시킵니다. 오차가 최소가 되는 점이 미분했을 때 기울기가 0이 되는 지점이고 그것이 찾고자 하는 답입니다.

이게 경사 하강법인데요. 단일 퍼셉트론일 경우와 다층 퍼셉트론일 경우 가중치를 조정하는 방식은 결국 같습니다. 결괏값의 오차를 구해서 하나씩 앞으로 가중치를 거슬러 올라가며 조정하는 방식입니다.

위의 사진을 통해 최적화의 계산 방향이 출력층에서 시작해 앞으로 진행되는 것을 알 수 있는데요.

그래서 다층 퍼셉트론에서의 최적화 과정을 오차 역전파(back propagation)라고 부릅니다.

오차 역전파의 방식은 아래와 같이 정리할 수 있습니다.

3번의 ‘오차가 작아지는 방향으로 업데이트한다’의 의미는 미분 값이 0에 가까워지는 방향으로 나아간다는 뜻입니다.

‘기울기가 0이 되는 방향’의 의미: 가중치에서 기울기를 뺐을 때 가중치의 변화가 전혀 없는 상태를 말함

따라서 오차 역전파를 가중치에서 기울기를 빼도 값의 변화가 없을 때까지 계속해서 가중치 수정 작업을 반복하는 것이라 표현할 수 있습니다.

수식으로 표현하면 $W(t+1) = W_t-\frac{∂오차}{∂W}$ 입니다.

새로운 가중치( $W(t+1)$ )는 현재 가중치( $W$ )에서 기울기( $\frac{∂오차}{∂W}$ )를 뺀 값입니다.

이렇게 오차가 수정되는 과정의 계산을 살펴보겠습니다.

그림으로 위의 과정을 나타내면 이렇습니다.

환경 변수 지정
환경 변수에는 입력 값(input data)과 타깃 결괏값(target)이 포함된 dataset, learning rate 등이 포함됩니다.

또한, activation function과 weight 등도 선언되어야 합니다.
신경망 실행
초깃값을 설정하여 activation function과 weight를 거쳐 결괏값이 나오게 합니다.
결과를 실제 값과 비교
결괏값과 실제값을 비교한 오차를 측정합니다.
역전파 실행
output layer와 hidden layer의 weight를 수정합니다.
결과를 출력합니다.