딥러닝 개요 - 역전파

김민석·2022년 4월 28일

역전파 이해

이해를 위한 인공 신경망은
두 개의 입력 - 두 개의 은닉층 뉴런 - 두 개의 출력층 누련
이며 활성화 함수는 시그모이드를 사용

순전파(Forward Propagation)

파란 숫자는 입력값, 빨간 숫자는 각 가중치의 값을 의미

$z_{1}=w_{1}x_{1} + w_{2}x_{2}=0.3 \text{×} 0.1 + 0.25 \text{×} 0.2= 0.08$
$z_{2}=w_{3}x_{1} + w_{4}x_{2}=0.4 \text{×} 0.1 + 0.35 \text{×} 0.2= 0.11$

$z1,z2$ 는 은닉층 뉴런에서 시그모이드 함수를 지나고 결과값은 은닉층 뉴런의 최종 출력 값 $h1,h2$ 이다.

$h_{1}=sigmoid(z_{1}) = 0.51998934$
$h_{2}=sigmoid(z_{2}) = 0.52747230$

이는 다시 출력층 뉴런의 입력값이 되고
$z_{3}=w_{5}h_{1}+w_{6}h_{2} = 0.45 \text{×} h_{1} + 0.4 \text{×} h_{2} = 0.44498412$
$z_{4}=w_{7}h_{1}+w_{8}h_{2} = 0.7 \text{×} h_{1} + 0.6 \text{×} h_{2} = 0.68047592$

이후 출력층에서 시그모이드 함수를 지난 값은 최종 출력값(예측값)

$o_{1}=sigmoid(z_{3})=0.60944600$
$o_{2}=sigmoid(z_{4})=0.66384491$

선택한 손실함수(여기서는 MSE)에 따라 오차를 계산하고 전체 오차를 구한다.

$E_{o1}=\frac{1}{2}(target_{o1}-output_{o1})^{2}=0.02193381$
$E_{o2}=\frac{1}{2}(target_{o2}-output_{o2})^{2}=0.00203809$
$E_{total}=E_{o1}+E_{o2}=0.02397190$

역전파 1단계(BackPropagation Step1)

출력층에서 입력층 방향으로 계산하며 가중치를 업데이트

업데이트할 가중치는 $w_{5}, w_{6}, w_{7}, w_{8}$
총 4개

미분의 연쇄 법칙을 통해 $\frac{∂E_{total}}{∂w_{5}}$ 를 계산
$\frac{∂E_{total}}{∂w_{5}} = \frac{∂E_{total}}{∂o_{1}} \text{×} \frac{∂o_{1}}{∂z_{3}} \text{×} \frac{∂z_{3}}{∂w_{5}}$

(1) 첫째 항
$E_{total}$ 의 값은 전체 오차값으로 식은

$E_{total}=\frac{1}{2}(target_{o1}-output_{o1})^{2} + \frac{1}{2}(target_{o2}-output_{o2})^{2}$

이에 $\frac{∂E_{total}}{∂o_{1}}=2 \text{×} \frac{1}{2}(target_{o1}-output_{o1})^{2-1} \text{×} (-1) + 0$
$\frac{∂E_{total}}{∂o_{1}}=-(target_{o1}-output_{o1})=-(0.4-0.60944600)=0.20944600$

(2) 둘째 항

시그모이드 함수의 미분은 $f(x) \text{×} (1-f(x))$ 이고
따라서 시그모이드 함수 출력값인 $o_{1}$ 은
$\frac{∂o_{1}}{∂z_{3}}=o_{1}\text{×}(1-o_{1})=0.60944600(1-0.60944600)=0.23802157$

(3) 셋째 항
$\frac{∂z_{3}}{∂w_{5}}=h_{1}=0.51998934$

우변 모든 항 계산을 곱해주면
$\frac{∂E_{total}}{∂w_{5}} = 0.20944600 \text{×} 0.23802157 \text{×} 0.51998934 = 0.02592286$

경사 하강법에 따라 가중치를 업데이트 학습률은 0.5로 가정

$w_{5}^{+}=w_{5}-α\frac{∂E_{total}}{∂w_{5}}=0.45- 0.5 \text{×} 0.02592286=0.43703857$

같은 원리
$\frac{∂E_{total}}{∂w_{6}} = \frac{∂E_{total}}{∂o_{1}} \text{×} \frac{∂o_{1}}{∂z_{3}} \text{×} \frac{∂z_{3}}{∂w_{6}} → w_{6}^{+}=0.38685205$
$\frac{∂E_{total}}{∂w_{7}} = \frac{∂E_{total}}{∂o_{2}} \text{×} \frac{∂o_{2}}{∂z_{4}} \text{×} \frac{∂z_{4}}{∂w_{7}} → w_{7}^{+}=0.69629578$
$\frac{∂E_{total}}{∂w_{8}} = \frac{∂E_{total}}{∂o_{2}} \text{×} \frac{∂o_{2}}{∂z_{4}} \text{×} \frac{∂z_{4}}{∂w_{8}} → w_{8}^{+}=0.59624247$

역전파 2단계
1 단계 이후 입력층 방향으로

층이 많다면 반복 수행한다.
$\frac{∂E_{total}}{∂w_{1}} = \frac{∂E_{total}}{∂h_{1}} \text{×} \frac{∂h_{1}}{∂z_{1}} \text{×} \frac{∂z_{1}}{∂w_{1}}$

(1) 첫째 항
$\frac{∂E_{total}}{∂h_{1}} = \frac{∂E_{o1}}{∂h_{1}} + \frac{∂E_{o2}}{∂h_{1}}$

$\frac{∂E_{o1}}{∂h_{1}} = \frac{∂E_{o1}}{∂z_{3}} \text{×} \frac{{∂z_{3}}}{∂h_{1}} = \frac{∂E_{o1}}{∂o_{1}} \text{×} \frac{∂o_{1}}{∂z_{3}} \text{×} \frac{{∂z_{3}}}{∂h_{1}}$
$= -(target_{o1}-output_{o1}) \text{×} o_{1}\text{×}(1-o_{1}) \text{×} w_{5}$
$= 0.20944600 \text{×} 0.23802157 \text{×} 0.45 = 0.02243370$

$\frac{∂E_{o2}}{∂h_{1}} = \frac{∂E_{o2}}{∂z_{4}} \text{×} \frac{{∂z_{4}}}{∂h_{1}} = \frac{∂E_{o2}}{∂o_{2}} \text{×} \frac{∂o_{2}}{∂z_{4}} \text{×} \frac{{∂z_{4}}}{∂h_{1}} = 0.00997311$
$\frac{∂E_{total}}{∂h_{1}} = 0.02243370 + 0.00997311 = 0.03240681$
(2) 둘째 항

$\frac{∂h_{1}}{∂z_{1}} = h_{1}\text{×}(1-h_{1}) = 0.51998934(1-0.51998934)=0.24960043$

(3) 셋째 항

$\frac{∂z_{1}}{∂w_{1}} = x_{1} = 0.1$

즉 $\frac{∂E_{total}}{∂w_{1}} = 0.03240681 \text{×} 0.24960043 \text{×} 0.1 = 0.00080888$

경사 하강법 업데이트

$w_{1}^{+}=w_{1}-α\frac{∂E_{total}}{∂w_{1}}=0.3- 0.5 \text{×} 0.00080888=0.29959556$

이외에도
$\frac{∂E_{total}}{∂w_{2}} = \frac{∂E_{total}}{∂h_{1}} \text{×} \frac{∂h_{1}}{∂z_{1}} \text{×} \frac{∂z_{1}}{∂w_{2}} → w_{2}^{+}=0.24919112$
$\frac{∂E_{total}}{∂w_{3}} = \frac{∂E_{total}}{∂h_{2}} \text{×} \frac{∂h_{2}}{∂z_{2}} \text{×} \frac{∂z_{2}}{∂w_{3}} → w_{3}^{+}=0.39964496$
$\frac{∂E_{total}}{∂w_{4}} = \frac{∂E_{total}}{∂h_{2}} \text{×} \frac{∂h_{2}}{∂z_{2}} \text{×} \frac{∂z_{2}}{∂w_{4}} → w_{4}^{+}=0.34928991$

결과 확인

업데이트로 오차 감소가 있는지 확인

$z_{1}=w_{1}x_{1} + w_{2}x_{2}=0.29959556 \text{×} 0.1 + 0.24919112 \text{×} 0.2= 0.07979778$
$z_{2}=w_{3}x_{1} + w_{4}x_{2}=0.39964496 \text{×} 0.1 + 0.34928991 \text{×} 0.2= 0.10982248$
$h_{1}=sigmoid(z_{1}) = 0.51993887$
$h_{2}=sigmoid(z_{2}) = 0.52742806$
$z_{3}=w_{5}h_{1}+w_{6}h_{2} = 0.43703857 \text{×} h_{1} + 0.38685205 \text{×} h_{2} = 0.43126996$
$z_{4}=w_{7}h_{1}+w_{8}h_{2} = 0.69629578 \text{×} h_{1} + 0.59624247 \text{×} h_{2} = 0.67650625$
$o_{1}=sigmoid(z_{3})=0.60617688$
$o_{2}=sigmoid(z_{4})=0.66295848$
$E_{o1}=\frac{1}{2}(target_{o1}-output_{o1})^{2}=0.02125445$
$E_{o2}=\frac{1}{2}(target_{o2}-output_{o2})^{2}=0.00198189$
$E_{total}=E_{o1}+E_{o2}=0.02323634$

기존의 전체 오차가 0.02397190였으므로 1번의 역전파로 오차가 감소한 것을 확인할 수 있다

김민석

데이터 사이언스를 공부하는 커피쟁이

이전 포스트

딥러닝 개요

다음 포스트

딥러닝 개요 - 역전파

딥러닝 개요

딥러닝 개요 - 과적합

0개의 댓글