정규분포를 띄지 않는 high_low_gap, bidask_spread 특성만 log scale 하는 것은 논리적 NN Search에 영향이 있으므로, 모든 특성을 정규화 후 NN Search 하였음.
기존 RMSPE가 0.55 ~ 0.60 사이 값에서 0.5 초반으로 크게 줄어듦
Distance Metric 중 minkowski의 값이 설명력이 높게 나옴
2차원 Data의 Distance에 최적화된 Canberra의 장점을 사용해
설명력이 높다고 생각하는 realized_volatility와 bidask_spread0 두 특성을 사용한 NN 추가 생성
2 ~ 64 단위로 모니터링 해본 결과 대체적으로 단위가 높을수록
dv1_realized_volatility 비교 RMSPE가 낮게 나오는 경향이 있었음
추가 데이터들로 확인이 필요함
현재 대략 5700개의 Feature가 생성되었지만
dv1_realized_volatility를 제외한 다른 파생 변수는 어떻게 Selection 할 지는 리서치 중
좋은 정보 얻어갑니다, 감사합니다.