주식, 언어와 같은 Sequential data와 이를 이용한 Sequential model의 정의와 종류에 대해 배웁니다.
그 후 딥러닝에서 sequential data를 다루는 Recurrent Neural Networks 에 대한 정의와 종류에 대해 배웁니다.
LSTM에서는 Modern CNN 내용에서 배웠던 중요한 개념이 적용되어 있습니다. 무엇일까요?
Pytorch LSTM 클래스에서 3dim 데이터(batch_size, sequence length, num feature), batch_first 관련 argument는 중요한 역할을 합니다. batch_first=True인 경우는 어떻게 작동이 하게되는걸까요?
순환 경로를 따라 데이터가 끊임없이 순환
-> 과거의 정보를 기억하는 동시에 최신 데이터로 update
Short-term dependencies O
Long-term dependencies X
vanilla RNN은 비교적 짧은 sequence에 대해서만 효과를 보이는 단점
-> time step이 길어질수록 앞의 정보가 뒤로 충분히 전달되지 못하는 문제 발생
-> problem of long-term dependencies
긴 sequence 입력에 탁월한 성능을 보임
복잡한 LSTM 구조 단순화
No cell state, just hidden state
Simpler architecture with two gates (reset gate and update gate)
update gate, reset gate 2개만 존재