sequential data는 매우 익숙함
sequential data는 어디서 끝날지 모름 = 차원이 불분명
이는 CNN 등에서 사용하기 힘듬
가장 간단한 task는 이전 데이터를 이용해 다음 데이터를 예측
즉 과거의 정보량이 점점 늘어난다는 것
가장 쉬운 모델은 주목할 정보를 과거 n개 정보로 fix하는 것
현재는 과거의 정보에만 dependent
이는 많은 정보의 손실을 수반
과거의 정보를 요약하는 벡터 hidden state에 현재가 영향을 받음
recurrent 구조를 시간순으로 보면 입력이 굉장히 많은 FCN이라고 볼 수 있음
width가 굉장히 큰 구조
RNN의 가장 큰 단점
과거의 정보들이 취합해서 고려 될 때 과거의 정보가 미래까지 살아남기 쉽지 않음
현재로 온 hidden state는 결국 맨 처음 hidden state weighted 곱과 특정 값이 합해진 게 반복되는 값임
즉 많은 시간이 지나면서 정보의 의미가 없어지게 되는 것 (발산 or 소실)
Input x
t 시점에 들어온 인풋 데이터
hidden state
output
cell state
time t 까지에 들어온 정보를 summarize 하는 state
(컨베이어 벨트)
forget gate
decide which information to throw away
무엇을 버릴지 정하는 gate
Input x와 이전 output=hidden state가 input으로 사용
Input gate
어떤 정보를 cell state에 올릴지 정하는 gate
Update cell
forget gate에서 버리고, input gate에서 고른 정보로 cell state를 update
Output gate
update된 cell과 Input x, 이전 output=hidden state를 통해 어떤 값을 output으로 내보낼지 정하는 gate
Gate를 통해 update하고 Input과 output을 조합
Gated Recurrent Unit
lstm에서 cell state가 없고, gate가 두 개인 형태