https://www.kaggle.com/competitions/optiver-trading-at-the-close/discussion/462639
no feature engineering & LSTM => MAE 5.34x
(1st 5.2123, 2nd 5.3034)
stock_id, date_id Group 후 , window size (3) 단위로 생성한 Sequence Data들을 LSTM 학습
Input Layer : (3, 15) // numerical 14 + categorical 1
모든 Numerical Feature의 시간 차이별 Layer 추가 후 Zero Padding
: 길이가 3인 Sequence내에서 [0,1], [1,2] 의 변화와 [0,2] 의 변화 정도를 Feature로 추가 , Layer Size (3, 15)에 맞춰야하므로 Padding
seconds_in_bucket => 10 dimension으로 Embedding
Feature Engineering이 아예 없는 것은 아니나, 단순히 LSTM만으로도 높은 성과를 보여주었음을 확인 가능
Upbit의 Time_id 또한 categorical Feature로 분류하는 것이 유의미한 결과가 있을 것