RNN 첫 걸음

c0natus·2022년 1월 29일

AI Math

목록 보기

9/9

P(X_1,\cdots,X_t) = \prod\limits_{s=1}^tP(X_s|X_1,\cdots,X_{s-1})

결국, $X_1,\cdots,X_{t-1}$ 데이터가 있을 때, $X_t \sim P(X_t|X_1,\cdots,X_{t-1})$ 인 $X_t$ 를 모델링해야 한다.

고정된 길이 $\tau$ 만큼의 시퀀스만 사용하는 경우 AR( $\tau$ ) 자기회귀모델(Auto Regressive Model)이라고 부른다.
$\tau$ 는 hyperparameter이기 때문에 문제에 따라 그 값이 다르고, $\tau$ 를 결정할 때 사전지식이 필요하다.

$H_t = Net_{\theta}(H_{t-1}, X_{t-1})$

\boldsymbol{O} = \boldsymbol{HW}^{(2)} + \boldsymbol{b}^{(2)} \\ \boldsymbol{H} = \sigma(\boldsymbol{XW}^{(1)} + \boldsymbol{b}^{(1)})

잠재변수에는 총 2개의 gradient vector가 들어온다.
1. 다음 시점의 잠재변수에 들어오는 gradient vector
2. 출력에서 들어오는 gradient vector

L(x,y,W_H^{(1)}, W^{(2)}) = \sum\limits_{t=1}^T\mathcal{l}(y_t, o_t)

\frac{\partial L(x,y,W_H^{(1)}, W^{(2)})}{\partial W_H^{(1)}} = \sum\limits_{t=1}^T\frac{\partial \mathcal{l}(y_t, o_t)}{\partial W_H^{(1)}}

\frac{\partial \mathcal{l}(y_t, o_t)}{\partial W_H^{(1)}} = \frac{\partial \mathcal{l}(y_t, o_t)}{\partial o_t} \frac{\partial o_t}{\partial W_H^{(1)}} = \frac{\partial \mathcal{l}(y_t, o_t)}{\partial o_t} \frac{\partial g(h_t, W^{(2)})}{\partial W_H^{(1)}}

\frac{\partial g(h_t, W^{(2)})}{\partial W_H^{(1)}} = \frac{\partial g(h_t, W^{(2)})}{\partial h_t} \frac{\partial h_t}{\partial W_H^{(1)}}

\therefore \frac{\partial L(x,y,W_H^{(1)}, W^{(2)})}{\partial W_H^{(1)}} = \sum\limits_{t=1}^T\frac{\partial \mathcal{l}(y_t, o_t)}{\partial o_t} \frac{\partial g(h_t, W^{(2)})}{\partial h_t} \frac{\partial h_t}{\partial W_H^{(1)}}

이제 $\frac{\partial h_t}{\partial W_H^{(1)}}$ 의 값을 구해보자.
$h_t = f(x_t, h_{t-1}, W_H^{(1)})$ 이고, 단순히 $h_{t-1}$ 를 상수 취급한다면, $\frac{\partial h_t}{\partial W_H^{(1)}} =\frac{\partial f(x_t, h_{t-1}, W_H^{(1)})}{\partial W_H^{(1)}}$ 일 것이다.
하지만, $h_{t-1}$ 에도 $W_H^{(1)}$ 가 영향을 끼치므로 무시하면 안된다.

\frac{\partial h_t}{\partial W_H^{(1)}} = \frac{\partial f(x_t, h_{t-1}, W_H^{(1)})}{\partial W_H^{(1)}} + \frac{\partial h_t}{\partial h_{t-1}} \cdot \frac{\partial h_{t-1}}{\partial W_H^{(1)}}

\because \ f(x_t, h_{t-1}, W_H^{(1)}) = \frac{\partial h_t}{\partial h_{t-1}} \times h_{t-1} + \cdots

\therefore \frac{\partial h_t}{\partial W_H^{(1)}} = \frac{\partial f(x_t, h_{t-1}, W_H^{(1)})}{\partial W_H^{(1)}} + \sum\limits_{i=1}^{t-1}\Bigg(\prod\limits_{j=i+1}^t\frac{\partial f(x_j, h_{j-1}, w_h)}{\partial h_{j-1}}\Bigg)\frac{\partial f(x_i, h_{i-1}, w_h)}{\partial W_H^{(1)}}

하지만, 시퀀스 길이가 길어질수록 $\prod\limits_{j=i+1}^t\frac{\partial f(x_j, h_{j-1}, w_h)}{\partial h_{j-1}}$ 은 불안정해지기 쉽다.
만약 $\frac{\partial f(x_j, h_{j-1}, w_h)}{\partial h_{j-1}}$ 의 값들이 1보다 크면 크기가 매우 커지고, 1보다 작으면 크기가 매우 작아지기 때문이다.
이것은 기울기 소실(Gradient Vanishing)과 폭주(Exploding)라고 한다.
특히 기울기 소실이 일어나면, 미래의 결과를 과거에 반영하기 쉽지 않기 때문에 과거 정보를 유지할 확률이 높다.
시퀀스 길이가 길어지는 경우 BPTT를 통한 역전파 알고리즘의 계산이 불안정 해지므로 길이를 끊는 것이 필요하다. 즉, 특정 시점부터 미래의 gradient를 전달받지 않는 것이다.
이를 truncated BPTT라고 한다.
하지만 이것은 기울기 소실을 완전히 해결할 수 없다.
길이가 긴 시퀀스 데이터의 기울기 소실 문제를 해결하기 위해 등장한 RNN이 LSTM과 GRU이다.

Done is Better Than Perfect