오차역전파법을 표현하기 위한 방법
1, 수식을 이용한 방법
2, 계산 그래프를 이용한 방법
계산 그래프란?
계산 과정을 그래프로 나타낸 것이고 노드와 뎃지로 표현
계산 그래프의 장점
1, 국소적 게산이 가능
2, 중간 계산 결과 모두 보관이 가능
식에 대한 미분계산 값은 다음과 같다.
이 계산값을 이용하여 역전파에 대한 계산 그래프를 그려보게 되면 다음과 같다.
식에 대한 미분계산 값은 다음과 같다
이 계산값을 이용하여 역전파에 대한 계산 그래프를 그려보게 되면 다음과 같다.
ReLU
ReLU함수
여기에서 ReLU함수의 장점을 알 수 있다.
첫번째로는 비선형 함수로써 보다 다양한 로직을 구현 할 수 있고 두번째로는 역전파가 층 깊이 수행이 될 때 sigmoid함수는 chain rule을 게속 적용하게 되면 뒤에 있는 값은 아주 작은 미분값으로 되어 학습이 잘 이뤄지지 않지만 ReLU함수는 양수 부분에서 기울기 그대로 전파가 되어 뒤로 갈수록 값이 작아지는 현상을 방지 할 수 있다.
sigmoid
또한, x부분에서 역전파가 전달되는 식은 다음과 같이 유도가 가능하다.
여기에서 중요한 성질 두가지를 볼 수 있다.
첫번째로는 sigmoid계층의 역전파는 순전파의 출력(y)만으로 게산이 가능하고 두번째로는 sigmoid성질에 의해 y는 0과1의 사이의 값만 가질 수 있고 뒤로 갈수록 chain rule에 의해 작은 값이 전파된다는 특징을 알 수 있다.
이때, X와 W에서의 역전파의 식을 써보게 되면 다음과 같다.
행렬에서 역전파를 수행 할 때에는 항상 형상에 맞춰 식을 세우는 것에 유의를 해야 한다.
사이토 고키(齋藤 康毅), 『Deep Learning from Scratch』, 개앞맵시, 한빛미디어(2017), p147-p187