RNN 은 아키텍쳐 디자인에 유연성을 더해줌
기본 RNN 은 간단하지만 잘 동작하지 않음
→ timestep 마다 업데이트하는 과정이 곱셈에 기반했기 때문에 gradient vanishing 문제 생김
LSTM 과 GRU 는 덧셈 기반으로 grad 잘 전달함
Further Reading
Further Question
BoostCamp AI Tech