1주차 - AR, MA, ARMA, ARIMA, SARIMA, SARIMAX

ToBigs1617 Time-Series·2022년 4월 8일

AR, MA, ARMA, ARIMA, SARIMA, SARIMAX

시계열 심화세미나 1주차에서는 확률적 분석 방법인 AR, MA, ARMA, ARIMA, SARIMA, SARIMAX 모델에 대한 이론 및 실습을 진행하도록 하겠습니다.

1. 개념 정리

1-1. 정상 시계열과 비정상 시계열

Time-Series 정규세션에서 기본적인 시계열 개념에 대해 설명을 잘해주셔서, 확률적 분석 모델에 대해 설명하기에 앞서 복습하는 차원에서 간단하게 개념을 정리하고 넘어가도록 하겠습니다. 정상 시계열과 비정상 시계열은 ACF, PACF plot을 그려보고 판단할 수 있었고,

정상 시계열은 시간과 관계없이 평균과 분산이 일정한 시계열로, ACF, PACF plot을 통해 살펴보면, 값들이 랜덤하게 나타나는 경향을 가집니다. 즉, ACF plot이 일정한 패턴이 존재하지 않거나 갑자기 뚝 떨어지는 경우에 정상 시계열이라 판단할 수 있습니다.

한편, 비정상 시계열은 위의 그래프의 모양과 같이 평균과 분산이 일정하지 않은 시계열을 의미하며 왼쪽의 ACF plot을 살펴보면 값이 천천히 줄어드는 경향을 확인할 수 있습니다. 또한 계절적 패턴이 존재하고 평균, 분산이 모두 바뀌는 오른쪽 데이터의 경우, ACF plot을 보면 천천히 줄어들다가 다시 올라가는 형태이긴 하지만 계속 감소하는 것을 확인할 수 있습니다. 이렇게 ACF plot을 그려봤을 때, 값이 천천히 떨어지는 패턴을 가지면 비정상 시계열이라 판단할 수 있습니다.

1-2. 시계열 정상성 조건

시계열이 정상성을 만족하기 위한 조건은 다음과 같습니다.

시계열 자료의 모든 시간 t에 대하여 , 평균이 일정하다.

시계열 자료의 모든 시간 t에 대하여, 분산이 일정하다.

시계열 자료 $x_{t1}, x_{t2}$ 의 자기 상관함수(ACF) 및 편자기상관함수(PACF)는 시간 $t1, t2$ 에만 의존한다.

1-3. 정상성 가정 검증 지표 2가지

1) ACF (Auto Covariance Function) : 자기상관함수

→ 시차 k에 대해서, 두 관측치 간의 상관계수를 의미 (일반적인 상관관계를 구하는 함수식과 동일하게 계산)

2) PCAF (Partial Auto Correlation Function) : 편자기상관함수

→ 시차 k에 대해서, 두 시점 사이의 다른 시점들과의 상호 의존성을 아예 제거하고 두 시점간의 순수한 상관관계를 구한다는 것을 의미

2. AR, MA, ARMA

다음은 Box-Jekins가 제안한 3가지 모형인 AR, MA, ARMA 모델에 대해 살펴보겠습니다. 이 3가지의 모델은 기본적으로 추세 및 계절성분이 없는 단변량 시계열에 적합하다는 특징을 가지고 있습니다. 또한 ACF, PACF plot을 통해 특정 시계열 데이터에 대한 적절한 모델을 선정할 수 있습니다.

2-1. AR (Auto Regressive) : 자기회귀모형

AR 모형은 자기자신을 종속변수로 하고, 그 이전 시점의 시계열을 독립변수로 하는 모형입니다. 즉, t 시점의 관측치 $y_t$ 를 그 이전 시점의 계열들(시점이 조금 다른 자기자신들)을 가지고 모델링하겠다는 의미입니다.
AR(p) 모형은 $y_t$ 가 과거 p 시점까지의 계열들을 선형결합으로 표현될 수 있음을 가정하고 있기 때문에 항상 가장 최근에 관측된 관측치일수록 더 큰 가중치를 갖는 가역성을 만족합니다. (항상 가역성 만족)
회귀 모형과 달리, 독립변수들이 시점만 달라진 자기자신이기 때문에 독립성을 보장할 수 없어 독립변수 간 독립성 가정이 없습니다.
하이퍼 파라미터 : p (독립변수의 개수) → ACF, PACF plot을 그려보고, 어디서 절단되었는지 확인한 후 해당 위치의 p 값을 결정할 수 있습니다.

→ ACF plot의 경우, 지수적으로 감소하거나 sine 함수 형태로 감소하는 패턴을 보입니다. PACF plot의 경우, AR(1)은 시점 2에서, AR(2)는 시점 3에서 0으로 절단된 것을 보아 p+1 시점부터 0으로 절단되는 형태를 확인할 수 있습니다. 따라서 시계열 데이터의 ACF, PACF plot이 다음과 같은 형태를 띄면 AR 모형이 적합함을 알 수 있으며, 파라미터 p 또한 얻을 수 있습니다.

앞에서 AR 모형은 항상 가역성을 만족한다고 했는데, 정상성을 만족하기 위한 조건이 존재하며 다음과 같습니다.

정상성을 만족하기 위한 AR 계수의 제약조건

정리하면, y_t와 오차 간의 독립성으로부터, 다음 식이 도출됩니다.

$Var(y_t)=Var(\phi_0)+Var(\phi_1y_{t-1})+Var(\epsilon_t)+\sigma_t^2$
$= \phi_1^2Var(y_{t-1})+\sigma_\epsilon^2$

정상성 가정으로부터 $Var(y_t) = Var(y_{t-1})$ 이므로, $(1-\phi_1^2)Var(y_t)=\sigma_\epsilon^2$ 입니다.
$Var(y_t)>0$ 이므로 $(1-\phi_1^2)>0$ 이고, 따라서 $|\phi_1|<1$ 입니다.
역으로, AR(1) 모형에서 $|\phi_1|<1$ 이면 정상성을 만족함을 보일 수 있습니다.
즉, AR(1) 모형에서 $|\phi_1|<1$ 인 경우에만 정상성을 만족합니다.

2-2. MA (Moving Average) : 이동평균모형

MA 모형은 자기자신을 종속변수로 하고, 그 이전 시점의 백색잡음계열을 독립변수로 하는 모형입니다. 즉, t 시점의 관측치 $y_t$ 와의 관계를 연속적인 오차들로 표현하겠다는 의미입니다. 이 때, 각 오차항은 서로 독립적입니다.
MA(q) 모형은 백색잡음계열들( $\epsilon$ ) 자체가 정상성을 만족하기 때문에, $\epsilon$ 들의 선형결합으로 이루어진 MA 모형도 항상 정상성을 만족하게 됩니다. (항상 정상성 만족)
하이퍼 파라미터 : q → 원 시계열 데이터의 ACF, PACF plot을 확인한 후, q값을 결정할 수 있습니다.

→ ACF plot의 경우, MA(1)은 시점 2에서, MA(2)는 시점 3에서 0으로 절단된 것을 보아 p+1 시점부터 0으로 절단되는 형태를 확인할 수 있었습니다. PACF plot의 경우, sine 함수 형태로 감소하거나 지수적으로 감소하는 패턴을 확인할 수 있었습니다. 따라서 시계열 데이터의 ACF, PACF plot이 다음과 같은 형태를 띄면, MA 모형이 적합함을 알 수 있으며, 파라미터 q 또한 얻을 수 있었습니다.

앞에서 특성방정식에 대한 근의 절대값이 1보다 작을 경우, AR 모형은 정상성 조건이 된다고 설명했는데, 이 때 MA 모형은 AR 모형으로 가역할 수 있으며, 이를 가역성 조건이라고 합니다.

가역성 제약조건 (정상성 제약조건과 비슷)

[쌍대성(Duality) 성립] → MA 모형과 AR 모형의 가역성에 따른 ACF 및 PACF의 쌍대성을 요약하면 다음과 같고, plot의 모양이 비슷함을 알 수 있습니다.

MA ACF = AR PACF
MA PACF = AR ACF

2-3. ARMA (Auto Regressive Moving Average) : 자기회귀 이동평균모형

시계열 자료가 AR과 MA 모형의 요인을 동시에 가지고 있을 경우에 단일 분석모형으로만 설명하게 되면 차수 p, q가 커질 가능성이 높습니다. 추정 모수가 커지게 되면 추정의 효율성이 떨어질 위험성이 존재하므로 모수 절약의 원칙에 따라 AR 모형과 MA 모형을 결합한 모형입니다.
ARMA(p,q) 모형은 AR과 MA 모형이 결합된 모형으로, t 시점의 y_t를 자기자신과 lag 된 y값들과 t시점과 그 전 시점들의 오차를 함께 선형결합으로 표현합니다.
하이퍼 파라미터 : p, q

→ 원 시계열 데이터의 ACF, PACF plot을 확인한 후, q값을 결정할 수 있습니다.

ARMA(1,1) 모형의 ACF, PACF

→ ARMA(1,1) 모형의 ACF, PACF plot을 보면, 두 plot 모두 절단됐다기 보다는 지수함수적으로 감소하거나 sine 함수 형태로 감소하는 느낌임을 알 수 있습니다.

ARMA 모형 자체가 정상성, 가역성 성질을 모두 만족하기 위해서는
- AR(항상 가역성 만족) 부분에서 정상성을 만족하는 부분이 따로 필요하고,
- MA(항상 정상성 만족) 부분에서 가역성을 만족하는 부분이 따로 필요합니다.
AR(p), MA(q), ARMA(p,q) 모형의 ACF 및 PACF 특징

3. ARIMA, SARIMA, SARIMAX

이제 비정상 시계열 단변량 데이터에 적합한 모형에 대해 살펴보도록 하겠습니다. 추세나 계절성이 포함된 비정상 시계열의 경우, 차분을 통해서 추세나 계절성을 제거하거나 감소시켜 정상 시계열로 만들어 줄 수 있으며 로그변환과 같은 변환을 이용할 수도 있습니다.

d차 차분이란, 현 시점 데이터에서 d 시점만큼의 이전 데이터를 뺀 것을 의미합니다. 차분의 목적은 시계열의 정상화이며, 이미 시계열이 정상화가 되었는데도 차분을 많이 하게 되면 과대차분의 위험이 존재합니다. 과대차분은 ACF 자체를 복잡하게 만들거나 분산을 크게 만들기 때문에 지양하는 것이 좋고 보통 1,2차 차분을 사용합니다.

→ 원 데이터가 첫번째 그림처럼 쭉 일정하게 증가하면 1차 차분으로 충분하고, 두번째 그림처럼 복잡한 트렌드를 가지면 2차 차분까지 가야합니다. 대부분의 데이터는 2차 차분으로 충분하다고 합니다.

3-0. 후방이동기호

후방이동(backshift) 연산자 B는 시계열 시차를 다루 때 유용한 표기법입니다.

→ $y_t$ 에 작용하는 B는 데이터를 한시점 뒤로 옮기는 효과를 나타냅니다.

후방이동 연산자는 차분을 구하는 과정을 설명할 때 편리하며, 1차 차분을 다음과 같이 나타낼 수 있습니다.

→ 1차 차분을 (1-B)로 나타냈다는 점에 주목하고, 비슷하게 2차 차분을 계산하면 다음과 같습니다.

→ 따라서 일반적으로 d차 차분은 다음과 같이 나타낼 수 있습니다.

차분을 연산자로 결합하면, 보통의 대수법칙을 사용하여 다룰수 있기 때문에 후방이동기호가 유용하며, B를 포함하는 항은 서로 곱할 수 있습니다. 예를 들면, 1차 차분 뒤에 이어서 나오는 계절성 차분은 다음과 같이 나타낼 수 있습니다.

3-1. ARIMA (Auto Regressive Integrated Moving Average) : 자기회귀 누적이동평균 모형

y’_t는 차분을 구한 시계열

추세가 있고 계절 성분이 없는 단변량 시계열에 적합한 모형으로, 시계열이 비정상이면 d차 차분을 통해서 ARIMA 모형을 적용해 줄 수 있습니다.
→ d차 차분으로 변환된 시계열이 ARMA(p,q) 모형을 따르면, 원 시계열은 ARIMA(p,d,q) 모형을 따른다고 정의할 수 있습니다. (즉, ARIMA는 ARMA 모형에 차분을 d번 수행해준 모형)
하이퍼 파라미터 : p, d, q (p: AR의 차수 / d : 차분 횟수 / q : MA의 차수)
- ARIMA 모형의 잘 알려진 예(특수한 경우)는 다음과 같습니다.
  
  ARIMA(0,0,0) : 백색잡음 모델
  ARIMA(0,1,0) : 확률보행 / 0이 아닌 상수로 구성된 ARIMA(0,1,0) : 표류가 있는 확률보행
  ARIMA(0,1,1) : 지수평활 모델
  ARIMA(0,2,2) : 지수평활 추세를 가진 데이터로 확장시킨 홀트의 선형 방법과 같음
  ARIMA(p,0,0) : 자기회귀
  ARIMA(0,0,q) : 이동평균
- 2보다 큰 d값, 5보다 큰 p와 q 값에 대해서는 회의적인 자세를 취하는게 좋습니다. 또한 p와 q 항 중 하나만 크게 설정하고, 나머지 항은 상대적으로 작은 값으로 설정하는 것이 경험적으로 좋다고 합니다.
- ACF, PACF plot을 통해 수동적으로 모델을 적합시킬 수도 있고, auto.arima를 이용해 최적의 모델을 적합시킬 수도 있습니다.
더욱 복잡한 모델을 만들기 위해 성분을 결합할 때, 후방이동기호를 쓰면 훨씬 표현이 쉬워지는데 위의 식을 후방이동기호를 이용해 표현하면 다음과 같습니다.

3-2. SARIMA (Seasonal Auto Regressive Integrated Moving Average) : 계절 자기회귀 누적이동평균 모형

추세 및 계절성분이 있는 단별량 시계열에 적합한 모형으로, ARIMA 모형은 일반적으로 추세에만 적용되고 계절성을 띄는 데이터의 경우 계절차분을 실시하는 SARIMA를 사용하는 것이 효과적입니다.
→ 계절 차분은 관측치와, 같은 계절의 이전 관측치의 차이를 의미합니다. 따라서 m(계절 주기) 주기를 빼주기 때문에 m 차분이라고도 부릅니다.
SARIMA 모형은 ARIMA 모형에 계절적 성분을 추가한 모형으로, 데이터의 주기(s or m)를 설정해줌으로써 원하는 SARIMA 모형을 적합시킬 수 있습니다. (각 계절에 따른 독립적인 ARIMA 모형이 합쳐져 있는 모형)
SARIMA 모형은 기존 모형의 비계절성 부분을 나타내는 부분은 소문자 기호를 사용하고, 계절성 부분을 나타내는 부분에는 대문자 기호를 사용하여 $ARIMA(p,d,q)(P,D,Q)s$ 로 표현합니다.
→ 여기서 s 값은 월별 계절성을 나타낼 때 s=12, 분기별 계절성을 나타낼 때 s=4 등이 됩니다.
모형의 계절성 부분은 비계절성 성분과 비슷한 항으로 구성되지만, 계절성 주기의 후방이동을 포함합니다. $ARIMA(1,1,1)(1,1,1)_4$ 모형을 예로 들면, 모형은 s=4에 대한 경우이고 후방이동기호를 이용해 표현하면 다음과 같습니다.