stock-id nearest neighbor 에서 동시간대에만 다뤘는데,
다른 시간대의 element또 끌고 와서 사용해도 되지 않을까? 라는 Question
https://upbit.com/exchange?code=CRIX.UPBIT.KRW-BTC
https://www.binance.com/en/trade/BTC_USDT_from=markets&theme=dark&type=cross
NN 이전의 Feature들을 더 늘려보고 싶은데 괜찮은 아이디어가 없을지 구상 중
Upbit 같은 경우 국내 거래소이기에 새벽에는 거래량이 확 줄어듦
퇴근시간 ~ 밤시간 거래량 활발
이런 이유가 어쩌면 time-id 넣었을 때 설명력이 오르지 않았을까? 라는 생각
Data 개수가 많아 Feature Selection이 오래 걸려
1000개 데이터를 기준으로 RandomForestRegressor Feature Selection을 진행하였음
dv1_NN feature들이 Feature Importances가 높게 나왔으나 이후 다른 Feature들도 높은 Feature Importances를 보여주었음
데이터에 맞는 Feature Selction 방법 Search
dv1_NN 중 RMSPE 값이 낮은 n개의 Feature를 Selction?
dv1_NN 을 제외한 Feature Selection도 필요해보임
dv1_NN이 Feature Selection 이 대부분을 차지하고 있어서 아마 모델 결과에 영향을 준 것 같음
trade_vol, realized_volatility, bidask_spread_1 이 아마 지금 Feature 상으로 설명력이 가장 높게 나옴
Test 시간이 너무 오래 걸려 GPU로 시도하려했지만,
대부분의 머신러닝 기법들이 Sklearn을 사용하고 Sklearn은 GPU 사용을 지원하지 않음.