단일 유전자를 관찰하기 위해 해당 유전자를 증폭시켜 실험하는 PCR과 유사 맥락이고 생각.
Nearest Neighbor의 역할은 하나의 Feature을 여러 개로 증폭시켜 Prediction에 적절한 특성을 찾아내는 과정이라고 생각.
combined_result_df의 모든 특성간의 켄달타우 Corr을 계산
combined_result_df의 단일 특성을 반복하며 NN 생성
켄달타우 Corr에서 dv1_realized_volatility 값과 가장 높은 상관계수를 가진 5개의 특성 혹은 가장 낮은 상관계수를 가진 5개의 특성 두 Set을 사용
canberra (_sev_high_nn_c)
minkowski p : 2 (_sev_high_nn_m)
canberra (_sev_low_nn_c)
minkowski p : 2 (_sev_low_nn_m)
combined_result_df의 모든 특성으로 NN 생성
총 67개의 NN 생성
아래 단위로 Feature 증폭
'realized_volatility': [np.mean, np.min, np.max, np.std]
'lowest_return': [np.max, np.mean, np.min]
'num_trades': [np.mean]
'trade.tau': [np.mean]
'trade_vol': [np.mean]
'dv1_realized_volatility': [np.mean]
time_id_neigbor_sizes = [2, 4, 8, 16, 32, 64]
2^N 개 단위로 NN을 추출하였고
적은 수의 NN을 묶어서 추출한 데이터는 큰 의미가 없음을 확인
Q : 추출한 4000개 정도 되는 Feature 좋은 Feature는 어떤 것일까?
Score는 모든 NN의 dv1_realized_volatility 평균 값과 실제 dv1_realized_volatility 값의 RMSPE 계산 값을 기준으로 하였음
현재 ERROR 발생 해결 중
dv1_realized_volatility를 가지고 있는 특성 367
dv1_realized_volatility를 제외하고 특성 366 (61 x 6)
Best 25
Worst 25
Best 25
Worst 25
Best 25
Worst 25
Best 25
Worst 25