LSTM

안녕하세요·2023년 11월 23일

Pytorch_NLP_Cookbook

목록 보기

2/3

Task에 따라 여러 RNN 알고리즘이 파생된다
e.g. 인코더/디코더 프레임워크
$x_{t}$ 와 $h_{t-1}$ 을 combine
1. $Ux_{t}+Wh_{t-1}$ : 각 $w$ 곱한 후 element wise
2. $W[h_{t},x_{t}]$ : concentrate한 후 $w$ 곱함
  → algebraic 관점에서는 동일
combine한 결과에 $V$ 매트릭스 곱해서 $y$ space로 변환
한계 : 역전파 단계에서 $tanh$ 를 여러번 미분 → 기울기가 빠르게 0으로 수렴
- sequence가 길수록 학습이 안됨

그 대안으로 나온 방안이 LSTM

한 채널에 두 가지 역할을 담아야 한다
1. 이전 step output
2. 다음 step에 넘어가는 정보

Cell state(중요한 정보만 흘러가는 information flow)를 추가하자!

어떻게 중요한 정보만 남길 것인가?

Gate를 사용하자!

Hidden state(각 step output)는 Cell state를 적절히 가공해서 내보내자!
(RNN은 hidden state 채널만 존재)

목적 : coefficient로 각각의 정보 중요도 계산하기 위함
형태 : 0~1 사이의 값으로 이루어진 벡터
필터링 단계에 따라 다른 게이트 사용 (파라미터 구별)
- forget gate : $C_{t-1}$ 에서 불필요한 정보 필터링
- input gate : $\tilde{C_{t}}$ (임시 cell state)에서 중요한 정보만 필터링
- output gate : $C_{t}$ 를 가공하여 $h_{t}$ 로 만듦

$g_{t} = \sigma(W_{g} \cdot v_{input})$

$C'_{t} = g_{t} \cdot C_{t}$

정보 필터링 : forget gate 구성
$f_{t} = \sigma(W_f \cdot [h_{t-1}, x_{t}] + b_{f})$
정보 업데이트 : input gate 구성
$i_{t} = \sigma(W_i \cdot [h_{t-1}, x_{t}] + b_{i})$

$\tilde{C_{t}} = tanh(W_C \cdot [h_{t-1}, x_{t}] + b_{C})$ (바닐라 RNN과 동일)
Cell state
$C_{t} = f_{t} * C_{t-1} + i_{t} * \tilde{C_{t}}$
가공 : output gate 구성
$o_{t} = \sigma(W_o \cdot [h_{t-1}, x_{t}] + b_{o})$

$h_{t} = o_{t} * tanh(C_{t})$
전달