Seq to seq

TEMP·2021년 8월 23일

개념정리

목록 보기

3/9

기본적인 구조는 다음과 같다.

LSTM으로 예를 들어보자.

Encoder는 입력 시계열 데이터로부터 각 time마다 hidden state와 cell state를 만들어 다음 time으로 전달한다.
Encoder에서는 각각의 time에 대해서는 출력이 필요 없고 최종 출력은 마지막 time의 hidden state이다.
마지막 time의 hidden state에는 이전 time들의 input정보가 모두 담겨있다.
단, 이때 Encoder의 input size ( = time size )에 관계없이 항상 같은 길이로 encoding된다.
minibatch 학습시 문장의 길이는 padding을 이용해 맞춰준다.

Encoder의 출력을 첫번째 time의 LSTM에서 input hidden으로 받는다.
첫번째 time의 output은 다음 time의 input이 된다.
Train과 Generate의 과정의 차이점을 주의하자.
Generate일때는 "I"가 나오면 그 다음 time으로 "I"를 집어넣는다.
Train일때는 "I"가 아니여도 "I"를 집어 넣는다.
즉, Trian일때는 output에 상관없이 Decoder의 input이 target처럼 작용하고 그래서 time별 학습 후 tensor로 묶을 수 있다.
반면 Generate일때는 time별로 순차적인 과정이 필요하다.

https://arxiv.org/abs/1409.3215
'Sequence to Sequence Learningwith Neural Networks'

위의 Basic architecture에서는 Encoder에서 Decoder로 hidden state를 넘겨줄때, Encoder의 마지막 time의 hidden state가 Decoder의 첫번째 time의 input hidden state가 되었다.
우선 LSTM의 hidden state에 대해 자세하게 보자.
- form을 먼저 보면 다음과 같다.
  $[N×T×1]\longrightarrow Embedding\longrightarrow[N×T×D]\longrightarrow LSTM\longrightarrow[N×T×H]$
- 이때 $[N×T×H]$ 에서 마지막 $T$ 인 $[N×-1×H]$ 만이 Decoder로 전달된다.
  - 여기서 Encoder의 input 문장의 길이( padding을 고려한다면 정확한 표현은 아니지만 $T$ 라고 이해해도 된다. )와 상관없이 $H -vector$ 즉, 일정한 size로 전달된다.
다음 그림은 Peeky에서는 $[N×-1×H]$ 를 Decoder의 처음에만 전달하는 것이 아니라 모든 time에 전달하는 것을 표현한 그래프이다.

Train이 끝난 seq to seq 모델에서 단어를 생성하는 방법은 두가지가 있다.
- Greedy sampling - output score로 가장 높은 단어를 선택한다.
- Stocahstic sampling - output probability를 이용한다.
  위 두 방법의 가장 큰 차이는 같은 문장을 넣었을때, 항상 같은 결과 Vs 확률에따른 결과 이다.
Stocahstic sampling을 사용하고 temperature를 추가한다.

위와같이 기존의 Softmax function에 T : temperature를 추가한 것이다.
이렇게 하면 t가 작을 수록 큰 확률은 더 크게 작은 확률은 더 작게 즉, 결정적으로 나타나게 된다.

Peeky와 헷갈릴 수도 있는데 Peeky는 model을 그대로 두고 중간에 연산을 바꾸는 것이고 Attention은 그냥 새로운 layer인 Attention layer가(LSTM과 Affine 사이에) 추가 되는 것이다.
Attention Layer

Encoder에서 $hs=[N×T×H]$ ( Encoder의 모든 time에 대한 hidden state )가 출력되어
Decoder로 들어온다.
이때 Encoder의 마지막 hidden state $[N×-1×H]$ 가 Decoder의 첫번째 LSTM으로 들어간다. (이는 Basic model과 같다.)

Time 방향의 기울기 소실과 기울기 폭발에는 게이트와 Gradient Clipping으로 해결.
- Gradient Clipping
깊이 방향의 기울기 소실은 skip으로 해결.
Input을 output에 한번더 더해 주어 역전파시 기울기가 그대로 돌아온다.
( sum node는 기울기 그대로 )