순환 신경망 (2)

박경민·2023년 3월 16일

[ChatBot Project]

목록 보기

8/11

Wrec 이 너무 작으면 기울기 소실 문제, Wrec 이 너무 크면 기울기 폭주 문제가 발생한다.

이러한 문제는 어떻게 해결할까?
1. 기울기 폭주에 관해선

맨 왼쪽 가중치가 오른쪽의 가중치보다 늦게 업데이트.
왼쪽에서 입력값이었던 이전 층들의 출력값을 그대로 가져온다.
전체 신경망이 타격을 입는다.
Wrec < 1 이면 소실문제가, > 1이면 폭주문제 발생.
LSTM 에서는 Wrec = 1 으로 지정하기도 한다.
순환 신경망의 내부는 다음과 같다.
출력값이 모듈로 들어가 연산, 다음 모듈로 들어가 출력되는 구조.
tanh 이 가중치가 적용되는 곳.
LSTM 모습은 다음과 같다.
Wrec = 1 은 위로 쭉 이어지는 선이다. (두 개의 점별 연산 포함) 메모리 파이프라인이라고도 하고 시간 흐름에 따라 삭제, 추가되기도 한다.
왼, 오른쪽의 모듈은 다음과 같다.
C는 메모리셀, h 는 출력(전 모듈의 출력도 있다), Xt 는 인풋이다. 입력값이 3개, 출력이 2개다.
하나의 원은 많은 값이 들어간 벡터이다. / 두 개의 선이 합쳐지는 것을 Concatenate 라 한다. / 하나의 선이 두 개로 나누어지면 Copy 라 한다. / 내부의 원은 점별 연산이라 한다, x 는 밸브이다. / 노란색은 층별 연산(시그모이드)이며, 밸브가 잠기고 풀리는 것을 결정. / tanh 탄젠트에 들어갈 수도 있다.
가장 위로 메모리가 이동하고 밸브에 따라 추가 메모리가 결정되는 것이다.
점별은 벡터이므로 여기에 밸브에 따라 0, 1 을 곱해주는 것이다.

새로운 값이 들어온다.
인풋과 이전 모듈 출력 두 가지가 결합되어 밸브를 통과할지 잠글지 결정한다.
결합된 것은 다시 평행하게 이동하여 층별 연산에서 사용하여 많은 값 중 어떤 값을 보낼지 결정한다.
이동하는 메모리에서는 망각 밸브가 있다. 그 다음 메모리 밸브가 있다. 여기의 업데이트를 위해 아래에서 온 메모리를 추가할 수도 있다.
결합된 두 값은 이동하여 메모리 파이프라인 중 어느 부분이 모듈의 출력이 될 지 (전체 또는 어느 정도)를 결정. 이 연산에도 h와 X 입력이 사용된다.