실전
설명변수X의 현실적 데이터 전처리 방향실전
종속변수Y의 효과적 데이터 전처리 방향의 경우 조건수가 높은 것은 죄악시 되므로 조건수를 감소시켜야 한다. 크게 ① Scaling ② Multicorrelineatrity제거 ③ Regularization가 있다.
VIF를 이용한 방법과 PCA를 이용한 방법이 있다.
종속변수 Y는 정상화를 통해 더 나은 예측에 도움을 얻는다. 정상화의 사례는 Random Walk ↔ White Noise, 매출 ↔ 점유율, Price ↔ Return 등 이 있으며, 이를 통해 다음과 같은 이점을 얻는다.
일반적으로 시계열 데이터의 분리는 FE 이후에 진행한다. 그러나 시계열 데이터는 test 데이터에 대한 정보가 미지이므로 train 데이터를 기준으로 test데이터를 추론하거나 train데이터의 경향이 test데이터에 반복된다는 전제를 갖고 수행한다.