시계열 데이터는 여러 확률이 결합돼 생성된 데이터이고, 이를 확률법칙에 의해 생성되는 일련의 통계적인 현상인 확률과정의 하나라고 생각할 수 있습니다.
관찰된 시계열은 여러 확률변수의 집합인 확률과정입니다. 하지만 관찰된 시계열 안에 존재하는 확률과정의 확률구조를 추론하는 것은 불가능하기 때문에, 확률구조를 단순화하여 추론해야 합니다.
이 확률과정을 추론하기 위한 단순화 과정을 정상성이라합니다. 즉, 관찰된 시계열 데이터에 가능한 확률과정의 모형(시계열 모형)은 굉장히 많은데, 이들 중에서 어떤 특정한 성질을 가지는 일부분만을 고려하자는 개념이 정상성입니다.
관찰된 시계열 데이터의 평균, 분산 등에 체계적인이고 주기적인 변화가 없는 경우를 정상성을 가진 데이터라고 합니다. 대부분의 시계열은 정상성을 가정하고 전개하는데, 정상적이 아닌 시계열은 정상시계열로 변환해 주어야 합니다.
확률변수 가 시간 t에 관계없이 평균, 분산이 일정하고, 시차 에 따른 와 의 공분산인 자기공분산, 자기상관계수가 시차 에만 의존하고 시점 에는 무관하다면 해당 시계열은 약정상성을 갖는다고 할 수 있습니다.
그렇다면 우리는 시계열 의 평균 와 분산 그리고 시차에 따른 자기상관계수를 알면 시계열의 확률구조를 완전히 파악할 수 있게 됩니다. 그리고 이런 정상성을 가지는 확률과정을 정상확률과정이라고 합니다.
확률과정의 예로는 백색잡음과정(White Noise Process)과 확률보행과정(Ramdom Walk Process)이 있는데, 백색잡음과정은 정상확률과정이고 확률보행과정은 비정상확률과정의 예입니다.
이처럼 확률과정을 추론하기 위한 단순화 과정을 정상성이라 하고, 정상성을 갖는 확률과정을 정상확률과정이라고 합니다. 이중 정상확률과정의 예로 백색잡음과정(White Noise Process)이, 비정상확률과정의 예로는 확률보행과정(Ramdom Walk Process)이 있습니다.
정상확률과정의 대표적인 예인 백색잡음과정을 살펴보도록 하겠습니다. 앞서 정상성을 가지는 정상확률과정은 평균과, 분산이 일정하고 시차 에만 영향을 받는 시계열이라는 것을 계속 상기해서 보면 좋을 것 같습니다.
들이 서로 독립이고 평균이 0이고 분산이 인 확률변수일 때, 는 백색잡음과정 을 따른다고 할 수 있습니다.
그렇다면 백색잡음과정을 위와 같은 확률과정으로 정의할 수 있습니다. 서로 독립이고 동일한 분포를 따르는 확률변수들의 계열로 구성된 확률과정입니다. 따라서 모든 에 대해서 평균, 분산이 일정하고 자기공분산, 자기상관계수가 없게(0)되고, 이는 시간 에 무관하다는 것을 의미합니다. 따라서 백색잡음과정은 정상확률과정이라고 할 수 있는 것입니다.
이후 많은 확률과정 자기회귀(AutoRegressive), 이동평균(Moving Average)과정을 추가한 모형인 AR, MA, ARMA 등의 확률과정들은 백색잡음과정을 기초로 해서 추가해 생성됩니다.
시계열이 정상성을 갖는지 확인하기 위해서는 평균, 분산과 함께 자기상관계수를 확인해봐야 했습니다. 예를 들어 백색잡음과정을 따르는 시계열이라면 모든 시차에서 자기상관계수는 없어야 하니까, 실제 데이터에서 이를 확인하기 위해서는 자기상관을 도출해봐야 합니다. ('자기'는 시간이라는 하나의 변수에 따른 데이터이므로 공분산과 상관계수를 각각 자기공분산, 자기상관계수라고 합니다.)
정상시계열은 평균이 , 분산이 로 일정하고 자기공분산은 단지 시차 의 함수로 표현됐었습니다. 이를 통해 자기공분산 함수를 정의해보도록 하겠습니다.
자기공분산은 시차의 함수로 표현되므로 와 의 자기공분산 은 위와 같은 식으로 표현할 수 있고, 들의 집합을 자기공분산함수라고 합니다. 시차가 없으면 가 되겠죠.
자기공분산을 정의했으니, 자기상관함수도 정의할 수 있습니다.
시차가 인 자기상관계수는 위의 식과 같이 표현되고, 들의 집합을 자기상관함수라고 합니다. 만약 시차가 없는 자기자신과는 상관이 1이므로, 이겠죠.
자기상관함수는 확률과정의 평균, 분산과 함께 정상확률과정의 확률구조를 특정지어 주므로, 시계열을 판단하는데 중요한 역할을 합니다.
시계열에는 시차를 제외하고 다른 여러 변수들이 포함되어 있을 수 있습니다. 우리는 제3의 변수를 제거하고 시차에 따른 상관을 확인해보아야 하는데, 이를 부분상관계수를 의미합니다.
정상시계열의 부분자기상관계수 는 위의 식으로 정의할 수 있는데, 의 효과를 제거한 후 시차 만큼 떨어진 와 의 상관계수를 의미합니다.
이 부분자기상관계수의 집합을 부분자기상관함수라고 합니다.
관찰된 실제 데이터의 자기상관을 판단하기 위해선 실제 표본 데이터로부터 자기상관함수를 추정해야 합니다. 추정은 점추정으로 합니다.
위 식은 자기공분산 의 점추정량인 표본자기공분산함수입니다. 이를 통해 표본자기상관함수도 정의할 수 있습니다.
위 식은 시차 의 표본자기상관함수입니다. Bartlett(1946)의 결과에 의하면, 시계열 자료의 수 n이 충분히 크가면 표본자기상관계수 는
와 같이 정규분포를 따른다고 합니다. 여기서 충분히 많은 시계열 자료의 수는 약 100개 이상입니다. 이처럼 를 추정했다면, 이제 검정의 단계가 남아있습니다. 자기상관계수가 유의한지 검정하여 최종적으로 시계열 데이터의 정상성을 확인할 수 있습니다.
의 유의성 검정을 해보도록 하겠습니다. 정상확률과정을 따르는 백삭잡음과정으로부터 자기상관함수를 정의했었기 때문에 자기상관계수가 0으로 상관관계를 가지지 않는게 귀무가설이겠습니다.
vs
귀무가설을 기각하고 대립가설을 채택하게 되면, 는 유의합니다(0이 아니라는 것!).
검정통계량은 위와 같이 설정할 수 있고 통상적으로 설정하는 95% 신뢰구간으로 고려해보겠습니다. 이면 는 귀무가설을 기각해 유의한 값이 되고, 이면, 는 유의하지 않습니다(95% 신뢰구간으로 고려하므로 ). 이에 따라서 귀무가설을 기각하지 못하는 는 자기상관 값이 거의 0이라는 것을 의미하고, 해당 시차에서는 자기상관이 없다고 할 수 있습니다.
표본부분자기상관함수에서 를 로 대체하고, Durbin-Levinson 알고리즘에 의해 얻어집니다.
이렇게 구한 각 시차의 를 추정할 수 있습니다. 이제 유의성 검정을 해보도록 하겠습니다.
검정통계량은 아래와 같습니다.
정규분포를 따르게 되므로, 간단하게
이면 는 유의하고,
이면 는 유의하지 않게 됩니다.
이를통해 제 3의 요인을 제거한 해당 시차에서의 자기상관을 확인할 수 있습니다.
이렇게 모든 시차에 대해 자기상관을 구해보고 검정을 통해 관찰된 데이터의 정상성을 확인할 수 있습니다. 또한, 자기상관계수를 도표로 나타내 정상성을 직관적으로 확인해볼 수도 있습니다.
자기상관계수를 의 함수로 놓고 그린 도표를 상관도표라고 합니다. 이 상관도표를 통해 한눈에 시계열 데이터의 정상성을 한 눈에 판단할 수 있습니다. 또한, 시계열 ARIMA 모형의 차수를 결정하는데도 도움이 됩니다.
실제로 도표로 나타내면 위와 같은 형태를 띄게 됩니다. 파란색 점선이 신뢰 구간을 나타내는데, 구간 안에 있으면 유의하지 않은 값(자기상관이 없음)을 의미합니다. 위의 데이터는 구간을 벗어나는 값이 없으므로 백색잡음과정 데이터라고 할 수 있겠습니다.
하지만 과 같이 신뢰구간에 애매하게 걸쳐있는 경우가 있는데, 이때는 Ljung-Box test와 같은 방법으로 검정해보아야 합니다.