Reference paper : proceedings.neurips.cc/paper_files/paper/2019/Paper.pdf시퀀스 데이터에 대해 이전 정보를 기억하는 RNN, LSTM, GRU는 데이터를 순차적으로 처리해야 해서 병렬화가 어려움이상적인 모델 구조