
시계열 데이터는 값에 따라 데이터가 변하는 형태로 되어있는 데이터를 지칭한다.
시간에 따라 데이터가 변하기 때문에, 특정 시간의 값들은 다른 시점의 값과 매우 밀접하게 연관 되어있다.
현재까지의 데이터를 바탕으로 미래를 예측하기 위해서는 특별한 가정을 필요로 한다. 이때 가장 중요한 특성중의 하나가 바로 Stationarity이다. Stationary의 가장 중요한 성질은 시간에 관계없이 관계 없이 일정한 성질을 가지고 있다는 점이다.
실제로 ARIMA모델에서 예측하는 과정은 다음과 같다.
1. timeseries 를 plot하여 경향성 및 반복성을 파악한다.
2. 해당 경향성 및 반복성을 삭제하여 stationary한 성질을 가지는 residual(잔사)만 남긴다.
3. residual을 예측하는 모델을 fitting한다.
4. 해당 모델을 이용하여 이후 를 예측한다.
해당 모델에서는 stationary한 성질을 이용하여 시계열 데이터를 예측하므로, stationary한 성질을 만족하는 것은 매우 중요하다.
강한 정상성은 의 joint probablistic distribution 은 변하지 않는다. 수식으로 정의하면 다음과 같다.
CDF
다음의 수식을 상세하게 설명하면 다음과 같다. 는 Cumulative Distribution function(누적 분포 함수)라 하고 각 가 보다 작을 결합 확률 분포가 모든 데이터에 대하여 h만큼 이동한 것과 동일해야 한다.
의미론적으로 편하게 와 의 correlation와 와 이 동일하다는 느낌으로 이해해도 된다.
하지만 해당 정의는 너무 제한적이기에 시계열 분석에서는 Weakly Stationary또한 정의한다.
더 열린의미의 Weakly Stationary는 다음 3가지를 만족한다.
a. is constant
b. for all s and t
c. for ,
a는 는 시간에 관계없이 늘 평균이 일정하다는 의미이다.
b는 어떠한 시점 s와 t에 관계없이 covariance가 동일해야 한다는 의미로, autocovariance 성질을 만족해야한다.
c는 어느 시점에서도 분산이 동일해야 한다.
즉 b와 c를 통해 weakly stationary의 가장 중요한 성질은 시간에 상관없이 서로 떨어져있는 간격에 따라 늘 일정하다는 점이다.
다음과 같은 stationary 성질을 이용하여 ARIMA model에서는 시계열 예측을 진행한다.