[시계열] Chapter 11

유니·2022년 4월 6일
0

시계열

목록 보기
8/9

11. 오차 측정

  • 예측의 정확성을 판단하기 위한 최선의 경험적 방법
  • 표준 교차검증 방법을 피해야 하는 이유
    : 미래의 정보가 모델로 누수될 수 있기 때문에
  • 모델의 학습, 검증, 테스트를 위해 데이터를 분할하는 메커니즘에 대한 예
  • 예측이 충분히 좋은 시점을 결정하는 방법
  • 출력의 일부로 불확실성이나 오차측정을 직접 생성하지 않는 기법에서 불확실성을 추정하는 방법

예측을 테스트하는 기본 방법

예측 생성 : 예측 생성에 사용될 충분한 데이터를 사전에 얻고, 이를 통해 예측을 생성

미래의 정보가 과거로 누수되거나 과거의 정보가 미래로 누수되는 현상은 위험하기에 모든 모델에 대한 최적의 기준은 학습, 검증, 테스트 기간과 함께 백테스트되어야 한다

백테스트 형식 구현
→ 교차검증과 유사한 구조를 보존한 채, 시간이라는 요소를 인식할 수 있는 방식을 사용

→ 학습 데이터의 윈도를 확장하는 대신 위치를 이동

진화한다면 모든 테스트 기간이 가장 관련성 있는 데이터로 학습된 모델로 테스트되는 이동 윈도 방법이 적합
과적합을 피하려면 확장 윈도의 사용이 고정된 길이의 윈도보다 나은 방법

백테스트의 구조를 잡을 때는 학습될 모델의 역동성을 고려

ARIMA와 같은 전통적인 통계 모델
: 모든 데이터가 모델의 파라미터를 선택할 때 균등하게 고려

배치형태의 확률적 방식 : 시간에 따라 진화하는 가중치와 추정치라는 결과를 가져옴


예측하기 좋은 시점

예측이 충분히 좋다고 판단되는 시점은 정한 전체적인 목표, 필요한 정도의 '모면 가능한' 최소한의 품질, 데이터의 한계와 특징에 따라 다름

모델이 더 좋아질 가능성이 있는지 가능성을 식별하기 위한 조치

  • 테스트 데이터셋이 대한 모델 출력 그래프 그리기
    : 모델이 만든 분포는 체제 전환이나 기본 추세의 변화가 없다는 가정하에 예측될 값의 분포와 일치해야 한다
  • 시간에 따른 모델의 잔차 그래프 그리기
    : 시간에 따른 잔차가 균등하지 않으면 모델이 불충분할 수 있다
  • 시간을 인식하는 간단한 널 모델에 대해 검증하기
    : 일반적인 널 모델의 시간 tt에 대한 모든 예측은 시간 t1t-1의 값이 되어야 하는데 이런 단순한 모델을 뛰어넘을 수 없다면 모델을 정당화할 수 없다
  • 모델이 이상치를 다루는 방법 살펴보기
    : 이상치가 있는 사건의 예측이 가능한 방법이 없을 가능성이 높기에 무시하는게 최고의 방법이다
  • 사건에 민감한 분석 수행하기
    : 시스템의 기본적인 역동성에 대한 지식을 사용해서 관련된 시계열과 질적으로 유사한 행동을 도출하는지 확인하고, 모델이 동일한 방식으로 유사한 시간적 패턴을 인식하고 처리하는지 확인한다

시뮬레이션으로 모델의 불확실성 추정

예측 모델과 관련된 불확실성을 알아보는 방법 → 간단한 시뮬레이션

모델의 적합에 따라 계수 ϕ\phi의 추정치가 얼마나 가변적인지 살펴봄
몬테카를로 시뮬레이션을 여러 번 실행


여러 단계를 앞선 예측

📌 직접 관심 범위에 적합시키지

데이터가 분 단위로 구성되어 있을 때, 예측을 5분 앞선 범위에 대해 수행하고 싶으면 시간 tt에 대한 모델의 입력을 잘라내고 시간 t+5t+5까지의 데이터에 대한 레이블로 모델의 학습을 수행
model(X)=Ymodel(X)=Y

📌 거리가 먼 시간 범위에 대한 재귀적인 접근 방법

다양한 범위에 적합되는 데 재귀적인 접근 방식을 사용하면, 모델은 하나만 만들지만 모델의 출력을 다시 입력으로 주입할 수 있다

세 단계를 앞선 범위에 적합하고 싶을 때

  • model(Xt)Yt+1model(X_t)→ Y_{t+1}의 추정치
  • model(Xtmodel(X_tYt+1Y_{t+1}의 추정치)Yt+2)→ Y_{t+2}의 추정치
  • model(Xtmodel(X_tYt+1Y_{t+1}Yt+2Y_{t+2}의 추정치)Yt+3)→ Y_{t+3}의 추정치

📌 시계열에 적용된 멀티태스크 학습

멀티태스크 학습 : 하나의 모델을 여러 가지 목적에서 활용될 수 있도록 만들거나, 서로 다르지만 연관된 대상을 한 번에 예측하는 일반화된 학습이 되도록 한다는 개념

서로 다른 시간 범위를, 서로 다른 예측 대상으로 지정하여 멀티태스크 학습을 적용할 수 있다

  • model(Xt)=(Yt+1,Yt+10,Yt+100)model(X_t)=(Y_{t+1}, Y_{t+10}, Y_{t+100})
  • model(Xt)=(Yt+1,Yt+2,Yt+3)model(X_t)=(Y_{t+1}, Y_{t+2}, Y_{t+3})

모델 검증 시 주의 사항

  • 사전 관찰
    시스템의 사전관찰을 인식하지 못할 때 가능한 한 상품화된 모델이 갑자기 타당성을 잃어버릴 수 있다
  • 구조적 변화
    탐색적 분석이 잘 이루어져야 구조적 변화에 동일한 모델을 학습시킨다

0개의 댓글