RNN
구조
서로 다른 time step에서 들어온 데이터를 처리할 때 동일한 parameter 사용
hidden state 계산
RNN Type
Char level Language Model
기본적으로 다음 단어 예측
예시 구조 (’hello’ sequence 학습)
BPTT (Backpropagation through time)
RNN을 학습시키는 방법
Truncated BPTT
Vanishing / Exploding Gradient Problem
LSTM (Long Short-Term Memory)
핵심: 변형없이 cell state 정보를 그대로 전달 (long-term dependency 문제 해결)
long-term dependency: hidden state의 과거 정보가 마지막까지 전달되지 못하는 현상
구조
Forget Gate: 이전 cell state의 일부만 반영
Input Gate: 추가된 정보를 일부만 반영
Output Gate: 다음 time step에 hidden state를 넘겨준다.
GRU (Gated Recurrent Unit)
Backpropagation in LSTM, GRU
덧셈 연산으로 gradient vanishing & exploding 방지
Logit
Word2Vec, GloVe 단점
Word2Vec
GloVe
둘 다 해결하기 어려운 문제