[25-1 Spring Session 1] Time Series Introduction

ESC·2025년 5월 26일

2025-Spring

목록 보기
1/3
post-thumbnail

1. Time Series Concept

1.1 What’s Time Series?

Definition

:an ordered sequence of random variables Xt{X_t},
where tt is time index of tT=(,n,,1,0,1,,n,)t\in T=(\cdots,-n, \cdots , -1, 0 ,1, \cdots, n ,\cdots)

tt라는 시점에 도달하기 전까지는 XtX_t의 값을 알 수 없는 random variable!

결국 discrete한 stochastic process로도 볼 수 있다.

Time series value는 random variable의 realization으로 보면 된다.

We need MOMENT

결국, random variable이라는 관점에서 time series를 알아보려면 distribution에 대한 이해가 필요할 것이다. 그러나 다음과 같은 distribution을 구하는 것은 어렵기 때문에

Ft1:n(x1:n)=Ft1,t2,tn=Pr(Xt1x1,Xtnxn)F_{t_1:n}(x_{1:n})=F_{t_1, t_2, \cdots t_n}=Pr(X_{t_1}\leq x_1, \cdots X_{t_n}\leq x_n)

수리통계학(1)에서 배웠던 moment를 활용하도록 하자!

  1. Mean function(first moment)
    μt=E[Xt]\mu_t=E[X_t]
  2. Variance function(second central moment)
    σ2=Var(Xt)=E[(Xtμt)2]\sigma^2=Var(X_t)=E[(X_t-\mu_t)^2]
  3. Autocovariance function: 시계열의 시간에 따른 연관 패턴을 자기공분산으로 요약(γ\gamma term)
    자기상관의 의미: 시계열 과정에서 특정 시차만큼 떨어져 있는 확률변수와의 상관관계. 사실상 서로 다른 확률변수라는 관점이 아니라, 시차에만 차이가 있다는 의미에서 자기(auto)라는 말을 사용.
    Autocorrelation function(ACF): 특청 시차(lag)에서 시계열 데이터의 자기상관을 측정하는 함수.
    자기상관(autocorrelation?): 같은 시계열의 과거 값과 현재 값의 선형관계를 의미.
    γ(s,t)=Cov(Xt,Xs)=E[(Xsμs)(Xtμt)]\gamma(s,t)=Cov(X_t,X_s)=E[(X_s-\mu_s)(X_t-\mu_t)]
    γ0=Var(Xt)\gamma_0=Var(X_t)

ρ(s,t)=Corr(Xt,Xs)=γ(s,t)σtσs, γ(s,t)σtσs1\rho(s,t)=Corr(X_t,X_s)=\frac{\gamma(s,t)}{\sigma_t\sigma_s}, \ \left\vert \frac{\gamma(s,t)}{\sigma_t\sigma_s} \right\vert \leq1

γ(t,t)=σt2;γ(s,t)=γ(t,s);γ(s,t)σsσtρ(t,t)1;ρ(s,t)=ρ(t,s);ρ(s,t)1\gamma(t,t) = \sigma_t^2; \quad \gamma(s,t) = \gamma(t,s); \quad |\gamma(s,t)| \leq \sigma_s \sigma_t \quad \rho(t,t) \equiv 1; \quad \rho(s,t) = \rho(t,s); \quad |\rho(s,t)| \leq 1

autocovariance와 autocorrelation모두 Xt,XsX_t, X_s의 linear correlation을 measure한다.

1.2 Stationary and Ergodicity

Stationary

:정상성. 평균, 분산, 공분산과 같은 통계적 특징이 시간(시점)에 따라 변하지 않는다는 특징. 크게 strict한 경우와 weak한 경우로 나눈다.

  1. Strict Stationary
    : time series Xt{X_t} is strictly stationary
    if {X1,Xn}\{X_1,\cdots X_n\} and {X1+k,,Xn+k}\{ X_{1+k} , \cdots,X_{n+k}\} possess the same joint distribution for any integer n1n\geq1 and integer kk.
    굉장히 강한 조건이다. 내가 시점을 어떻게 옮기든 모든 random variable이 같은 특징을 갖는다(같은 joint dist’n을 갖는다)는 뜻이다.
  2. Weak Stationary
    : 1) E[Xt]=μE[X_t]=\mu
    2) E[Xt2]=σ2<E[X_t^2]=\sigma^2<\infty, for any tt
    3) Cov(Xt,Xt+k)=γ(k)Cov(X_t, X_{t+k})=\gamma(k) is independent of any tt for each integer kk.

Ergodicity

: 시간에 따른 평균(추정량)과 모집단의 평균(모수)이 동일해진다.
→ 시계열 데이터가 충분히 긴 시간동안 주어진다면, 하나의 realization만으로도 모집단 전체의 통계적 특성을 추정할 수 있는가?와 관련.

{Xt}\{X_t\} is said to be erogodic if 다음 두 가지를 모두 만족.

  1. Mean ergodic: limnE[(1nt=1nXtμ)2]=0\lim_{n\rightarrow\infty}E[(\frac{1}{n}\sum_{t=1}^n X_t-\mu)^2]=0
  2. Variance ergodic: limnE[1nt=1n(Xtμ)2σ2]2=0\lim_{n\rightarrow\infty}E[\frac{1}{n}\sum_{t=1}^n (X_t-\mu)^2-\sigma^2]^2=0

Stationary and Ergodicity

일반적으로 weak stationary하다면 ergodicity를 가질 가능성이 높다고 한다.

그러나 모든 정상 시계열이 ergodicity를 만족하는 것이 아니다.

예를 들어, weak stationary를 만족하더라도, 서로 다른 realization간의 평균이 다르다면 ergodicity를 만족하지 않는다.

1.3 White Noise and Random Walk

White Noise(백색 소음 과정)

: 시간의 흐름에 상관 없이 완전 랜덤하게 움직이는 모델.
stationary한 경우 중 매우 특수한 경우! 다음 세 가지를 모두 만족

  1. for all tt, E[Wt]=μE[W_t]=\mu is constant. (일반적으로 μ=0\mu=0을 가정)

  2. for all tt, Var(Wt)=σ2Var(W_t)=\sigma^2 is constant.

  3. for all tt &ss, Cov(Wt,Ws)=0Cov(W_t,W_s)=0. → 서로 다른 시점끼리는 완전히 correlated.

    3조건에서 Gaussian White Noise가 된다면, independent까지 성립한다!
    ρ(k)={1,k=00,otherwise\rho(k) = \begin{cases} 1, & k = 0 \\ 0, & \text{otherwise} \end{cases}

Random Walk

: 술취한 사람의 발자국을 생각해보자. 거나하게 취한 사람은 첫 발자국을 내민 순간 다음 발을 제대로된 곳에 두기 힘들다. 다음 발자국은 분명 첫 발에서 멀지 않은 곳에 떨어져 있겠지만, 술에 취한 그의 정신상태 때문에 이상한 곳에 찍히게 될 것이다.

즉, 현재 상태(두 번째 발자국 이후)는 이전 상태에 의존하지만, 무작위적인 변화를 가진다. 이러한 것을 random walk process라고 한다.

Xt=Xt1+Wtwhere {Wt} is white noise, Cov(Wt,Xt1)=0Xt=Xt1+Wt=Xt2+Wt1==X0+W1++WtX_t=X_{t-1}+W_t \\ \text{where}\ \{W_t\} \text{ is white noise}, \ Cov(W_t, X_{t-1})=0 \\ X_t=X_{t-1}+W_t=X_{t-2}+W_{t-1}=\cdots=X_0+W_1+\cdots+W_t

E[Xt]=E[X0]+E[Ws]=constantE[X_t]=E[X_0]+E[W's]=constant → mean stationary 만족.

Var(Xt)Var(X0)+Var(Ws)Var(X_t)\geq Var(X_0)+Var(W's)→ variance stationary 만족 x(indep 가정시)ㅌ.

\therefore Random walk process는 stationary를 만족하지 않는다!

2. Exploratory Time Series Data Analysis

2.1 Partial AutoCorrelation Function

PACF

: 시차 k에 대하여 XtX_tXtkX_{t-k}의 상관관계에서 이 둘 사이에 있는 Xtk+1,Xt1X_{t-k+1}, \cdots X_{t-1}와의 상호 선형 의존성을 제거한 수의 순수한 XtX_tXtkX_{t-k}의 ACF.

일반적인 ACF는 모든 중간시차의 영향을 포함하여 총 상관관계를 측정 → 직접적인 관계인지 아닌지 구분이 어렵기 때문에 PACF를 사용한다.

{Xt}\{X_t\}를 stationary time series with E[Xt]=0E[X_t]=0이라고 가정하자(0인 이유는 그냥 간결함을 위함이지, 별다른 이유는 없다. 0이 아니어도 증명가능!).

  1. linear regression of XtX_t on {Xtk+1:t1}\{X_{t-k+1 : t-1}\}
    X^t=α1Xt1++αk1Xtk+1\hat X_t=\alpha_1X_{t-1}+\cdots+\alpha_{k-1}X_{t-k+1} where
    {α1,,αk1}=argminβ1,,βk1E[Xt(β1X1++βk1Xk1)]2\{\alpha_1,\cdots, \alpha_{k-1}\}=\arg \min_ {\beta_1,\cdots,\beta{k-1}} E[X_t-(\beta_1X_1+\cdots+ \beta_{k-1}X_{k-1})]^2
  2. Zt^=XtXt^\hat{Z_t}=X_t-\hat{X_t}: 사실상 잔차로 해석이 가능 → 중간 시차의 영향을 모두 제거한 후 남은 순수한 정보.
  3. Xtk^\hat{X_{t-k}}에 대해서도 실행하고, 비슷하게 Ztk^=XtkXtk^\hat{Z_{t-k}}=X_{t-k}-\hat{X_{t-k}}
ϕ11=Corr(Xt1,Xt)=Cov(Xt1,Xt)[Var(Xt1)Var(Xt)]1/2=ρ1ϕkk=Corr(Ztk^,Zt^)=Cov(Ztk^,Zt^)[Var(Ztk^)Var(Zt^)]1/2,k2\phi_{11}=Corr(X_{t-1}, X_t)=\frac{Cov(X_{t-1},X_t)}{[Var(X_{t-1})Var(X_t)]^{1/2}}=\rho_1 \\ \phi_{kk}=Corr(\hat{Z_{t-k}}, \hat{Z_t})=\frac{Cov(\hat{Z_{t-k}},\hat{Z_t})}{[Var(\hat{Z_{t-k}})Var(\hat{Z_t})]^{1/2}}, k\geq2

결국 정상시계열을 가정하기 때문에 모든 시점에서 평균과 분산이 일정하다. 내가 어떤 시점을 잡든 같은 시차만큼만 떨어져있다면 항상 같은 결과를 얻을 수 있다. 시점 1과 4, 4와 7, 101과 104의 관계가 모두 동일하다! 결국 정상시계열이라면, 시점 자체는 중요하지 않고 시차만이 중요하다. 측정을 어디서 하든 동일한 패턴이 관측되어야 한다.

2.2 White Noise Test

Motivation

: 정상 시계열이 White Noise인지 아닌지에 대해 통계적으로 검정할 수 있다.

Portmanteau (Q) test의 Box-Pierce 및 Ljung-Box 버젼으로 하면 된다. 이런게 있다만 알고 넘어가자.

2.3 Time Series Decomposition and Smoothing

Decomposition

: 시계열은 다음과 같은 세 가지 요소로 분해할 수 있다.

  1. Trend(추세성분 TtT_t)
  2. Seasonality(계절성분 StS_t)
  3. Random component(불규칙 요인 RtR_t)

Decomposition model로는 다음 두 가지가 있다.

  1. Additive Model: Xt=Tt+St+RtX_t=T_t+S_t+R_t → 계절성분의 크기가 시계열 전체 수준과 무관할 때 사용.
  2. Multiplicative Model: Xt=TtStRtX_t=T_tS_tR_t → 계절성분의 크기가 시계열의 전체 수준과 비례할 때 사용.

Smoothing(평활법)

: 과거 및 현재 자료의 불규칙 변동을 부드럽게 평활(smoothing)시켜 미래의 값을 예측, 자료들 간 상관관계는 고려하지 않는 방법.

대표적으로

  1. 이동평균법(moving average method): 특정 기간의 관측지 몇 개를 평균 낸 값을 다음 시점의 예측치로 사용.
  2. 지수평활법(exponential smoothing): 모든 데이터에서 최근값에 더 많은 가중치를, 과거값에는 적은 가중치를 주는 가중평균을 이용.
    모델 추세 (Trend) 계절성 (Seasonality) 특징
    가법적 Holt-Winters O O (덧셈) 계절성의 크기가 일정한 경우 사용
    곱셈적 Holt-Winters O O (곱셈) 계절성이 데이터의 크기에 따라 변화하는 경우 사용
    단순 지수 평활법 (SES) X X 가장 간단한 방식, 데이터 변동이 크지 않을 때 사용
    이중 지수 평활법 (DES) O X 추세 반영 가능, 계절성 없음
    특수한 곱셈적 Holt-Winters X O 계절성만 존재하고 추세는 없는 경우 사용

3. Stationary Time Series Models

3.1 BackShift Operator

BXt=Xt1BnXt=Bn1(BXt)=XtnBX_t=X_{t-1} \\ B^nX_t=B^{n-1}(BX_t)=X_{t-n}

Backshift operator bascially takes the value one step earlier.

3.2 Differencing and Stationary

Differencing(차분)

Differencing the order d:1Xt=Xt=(1B)Xt=XtXt1dXt=(1B)dXtDifferencing the lag k:1Xt=Xt=(1B)Xt=XtXt1kXt=(1Bk)Xt=XtXtk\text{Differencing the order d:} \\ \nabla^1 X_t = \nabla X_t = (1 - B) X_t = X_t - X_{t-1} \\ \nabla^d X_t = (1 - B)^d X_t \\ \text{Differencing the lag k:} \\ \nabla_1 X_t = \nabla X_t = (1 - B) X_t = X_t - X_{t-1} \\ \nabla_k X_t = (1 - B^k) X_t = X_t - X_{t-k}

이 둘은 다르다!! 정리하자면

  1. Order → 몇 번 1B1-B를 적용했는지
  2. Lag → 몇 번 뒤의 시차로 갔는지

결국 차분을 하는 이유는 Non-stationary time series를 stationary하게 만들기 위함이다. trend만 존재하는 경우 그냥 d-th order differencing을, trend와 seasonality가 모두 존재하는 경우 seasonal differencing을 시행 후 d-th order differecing을 고려한다.

‘정상화’가 필요한 이유?

시계열 분석의 궁극적인 목표는 바로 ‘예측’.

이 예측을 하기 위해서는 과거 데이터를 기반으로 맞춰야하는데… 비정상 시계열에서는 평균, 분산, 공분산이 시점마다 달라지므로 미래를 예측하는데 의미가 없다.

→ 결국 정상화를 통해 예측의 의미를 유지하고 시계열의 확률적 구조를 일정하게 만들어야 한다.

3.3 MA Model

Motivation

: 과거의 패턴이 안정적으로 지속된다면, 시계열 값은 과거의 데이터에 의해 예측 가능하다 → 정상성이 만족된다면 예측이 수월하다.

그렇다면 어느 정도의 멀리 있는 과거의 데이터를 이용해야 하는가? 그리고 멀면 멀수록 예측치에 대한 기여도는 줄어들텐데, 이를 고려할 가중치를 이용해야 할 것이다.

Moving Average Model(MA model)

MA Model of order qMA(q):Xt=μ+ϵt+θ1ϵt1θqϵtqwhere {ϵt}iidWN(0,σ2)\text{MA Model of order q} \\ \text{MA(q)}:X_t=\mu+\epsilon_t+\theta_1\epsilon_{t-1}+\cdots \theta_q\epsilon_{t-q} \\ \text{where } \{\epsilon_t\} \sim^{iid} WN(0,\sigma^2)

시계열 {Xt}\{X_t\}가 정상적이고 위와 같은 조건을 만족하면 MA model을 따른다고 말한다.

{ϵt}\{\epsilon_t\}를 innovation term이라고도 부른다.

MA model은 XtX_t가 과거 시점의 white noise term 들에 대해 선형결합으로 표현되어, 과거 noise에 대한 regression 형태로 생각해볼 수 있다.

→ 결국 MA model은 white noise를 lag에 따라 가중을 주어 합산한 모델이다! θ\theta의 값이 크면 클수록 해당 시차의 noise가 현재 값에 더 큰 영향을 준다.

MA model은 항상 정상성을 만족한다!

참고로, 어떤 model에 의해 만들어진 시계열 {Xt}\{X_t\}가 stationary라면, 그 모델 또한 stationary이다.

Backshift operator을 이용하여 μ=0\mu=0으로 가정하면 다음과 같이 MA(q)를 표현할 수 있다.

Xt=ϵt+θ1ϵt1θqϵtq=θ(B)ϵtwhere θ(z)=1+θ1z+θqzqX_t=\epsilon_t+\theta_1\epsilon_{t-1}+\cdots \theta_q\epsilon_{t-q} = \theta(B)\epsilon_t \\ \text{where }\theta(z)=1+\theta_1z+\cdots\theta_qz^q

θ(B)=0\theta(B)=0을 특성방정식이라고도 부르고, 이 특성방정식의 근(z)의 절댓값이 1보다 크면(결국 θ\theta의 절댓값이 1보다 작으면) 가역성(invertibility)를 만족한다.

Properties of MA Models

  1. E[Xt]=μE[X_t]=\mu
  2. γ0=Var(Xt)=(1+θ12++θq2)σϵ2\gamma_0=Var(X_t)=(1+\theta_1^2+\cdots+\theta_q^2)\sigma_\epsilon^2
  3. Autocovariance function:
    γk=Cov(Xt,Xt+k)={0,if k>qσϵ2i=0qkθiθi+k,if 0kq\gamma_{k} = Cov(X_{t}, X_{t+k}) = \begin{cases} 0, & \text{if } k > q \\ \sigma_{\epsilon}^2 \sum_{i=0}^{q-k} \theta_{i}\theta_{i+k}, & \text{if } 0 \le k \le q \end{cases} \\
  4. ACF:
    ρk=Corr(Xt,Xt+k)={1,if k=00,if k>qi=0qkθiθi+ki=0qθi2,if 0<kq\rho_{k} = Corr(X_{t}, X_{t+k}) = \begin{cases} 1, & \text{if } k = 0 \\ 0, & \text{if } k > q \\ \dfrac{\sum_{i=0}^{q-k} \theta_{i}\theta_{i+k}}{\sum_{i=0}^{q} \theta_{i}^2}, & \text{if } 0 < k \le q \end{cases}

Invertibility

: 모델이 가역적이다 → white noise(innovation)를 과거의 XtX_t값들로부터 거꾸로 복원이 가능하다.

시계열 {Xt}\{X_t\}가 다음 조건을 만족하면 가역적(invertible)이라고 한다.

ϵt=Xt+π1Xt1+π2Xt2+=j=0πjXtj,j=0πj<,π0=1\epsilon_t=X_t+\pi_1X_{t-1}+\pi_2X_{t-2}+\cdots=\sum_{j=0}^{\infty}\pi_jX_{t-j}, \\ \sum_{j=0}^{\infty} \left \vert \pi_j \right \vert<\infty , \pi_0=1

후에 서술할 AR() model로 표현이 가능하다는 뜻과도 일맥상통한다.

결국 ϵt\epsilon_t를 현재 및 과거의 시계열 값들의 선형 결합으로 표현이 가능하다는 것이 가역성이다.

3.4 AR Model

AutoRegressive Model(AR Model)

: 시계열 {Xt}\{X_t\}를 그 이전 시점의 시계열 {Xt1,Xt2,}\{X_{t-1},X_{t-2}, \cdots\}로 회귀시킨 모형.

AR Model of order pAR(p):Xt=φ0+φ1Xt1++φpXtp+ϵtwhere {wt}iidWN(0,σϵ2),E[Xsϵt]=0 if s<t,φs are all real numbers, φp0\text{AR Model of order p} \\ AR(p):X_t=\varphi_0+\varphi_1X_{t-1}+\cdots+\varphi_pX_{t-p}+\epsilon_t \\ \text{where }\{w_t\}\sim^{iid }WN(0,\sigma_\epsilon^2),E[X_s\epsilon_t]=0 \text{ if }s<t, \\ \varphi's \text{ are all real numbers, }\varphi_p\neq0

시계열 {Xt}\{X_t\}가 정상적이고 위와 같은 조건을 만족하면 AR model을 따른다고 말한다.

E[Xsϵt]=0E[X_s\epsilon_t]=0: 과거의 XsX_s와 현재의 ϵt\epsilon_t는 아무런 관계가 없다는 뜻.

Backshift operator을 이용하여 φ0=0\varphi_0=0으로 가정하면 다음과 같이 AR(p)를 표현할 수 있다.

ϵt=Xtφ1Xt1φpXtp=φ(B)Xtwhere φ(z)=1φ1zφpzp\epsilon_t=X_t-\varphi_1X_{t-1}-\cdots-\varphi_pX_{t-p}=\varphi(B)X_t \\ \text{where } \varphi(z)=1-\varphi_1z-\cdots-\varphi_pz^p

AR model은 사실상 선형회귀 모델과 똑같이 생겼다. 그러나, AR model은 독립변수로 종속변수의 시차 변수들로 구성되어있기 때문에 독립변수들 간 독립성이 가정되지 않는다. 또한 현재를 과거를 이용해 설명한다는 독특한 특징이 있다.

Properties of AR Model

  1. E[XtX(tp):(t1)]=φ0+φ1xt1+φpxtpE[X_t\mid X_{(t-p):(t-1)}]=\varphi_0+\varphi_1x_{t-1}+\cdots\varphi_px_{t-p}
    E[Xt]=μ=φ01φ1φp=0 iff φ0=0E[X_t]=\mu=\frac{\varphi_0}{1-\varphi_1-\cdots-\varphi_p}=0 \ iff\ \varphi_0=0
  2. Var(XtX(tp):(t1))=Var(ϵt)=σϵ2Var(X_t\mid X_{(t-p):(t-1)})=Var(\epsilon_t)=\sigma_\epsilon^2
    X(tp):(t1)X_{(t-p):(t-1)} 모두 R.V이긴 한데, 이미 관측된 값이라 상수로 취급되어서 ϵ\epsilon term만 남게 된다.
    또한 1.의 조건이 적용되면, 이는 E[Xtϵt]=0E[X_t\epsilon_t]=0이라는 의미로, 이는 t 시점에 새롭게 들어온 ϵt\epsilon_t은 이미 형성된 XtX_t와 무관하다는 뜻이다.
    Var(Xt)=γ0=φ1γ1++φpγp+σϵ2Var(X_t)=\gamma_0=\varphi_1\gamma_1+\cdots+\varphi_p\gamma_p+\sigma_\epsilon^2이고 이를 정리하면
    γ0=σϵ2/(1ϕ1ρ1ϕ2ρ2ϕpρp)\gamma_0 = \sigma_\epsilon^2 / (1 - \phi_1 \rho_1 - \phi_2 \rho_2 - \cdots - \phi_p \rho_p)이다.
  3. 1.의 조건이 적용될 때 k>pk>p에서 partial correlation ϕkk=0\phi_{kk}=0이다. 이는 곧 AR(p)의 PACF가 p 시차 이후에 cut off 된다는 의미로 이를 통해 AR 모델임을 확인하는데 큰 도움을 준다.
    여기서 XtX_tX(tp):(t1)X_{(t-p):(t-1)}에 대해 회귀시키면,
    X^t=ϕ1Xt1++ϕk1Xtk+1Thus, XtXt^=ϵt\hat{X}_t = \phi_1 X_{t-1} + \cdots + \phi_{k-1} X_{t-k+1} \rightarrow \text{Thus, } X_t-\hat{X_t}=\epsilon_t
    나아가 XtkXtk^X_{t-k}-\hat{X_{t-k}}{X(tk):(t1)}\{X_{(t-k):(t-1)}\}의 함수이고 ϵt\epsilon_t와 어떤 term도 uncorrelated되어있다. 따라서 다음이 성립한다.
    Cov(XtkX^tk,XtX^t)=Cov(XtkX^tk,εt)=0Cov(X_{t-k} - \hat{X}_{t-k}, X_t - \hat{X}_t) = Cov(X_{t-k} - \hat{X}_{t-k}, \varepsilon_t) = 0

Stationarity and Casuality of AR Models

:Xt=j=0ψjεtj,j=0ψj<,where ψ0=1,ϵtWN(0,ϵ2)X_t = \sum_{j=0}^{\infty} \psi_j \varepsilon_{t-j}, \quad \sum_{j=0}^{\infty} |\psi_j| < \infty, \text{where } \psi_0=1, \epsilon_t\sim WN(0,\epsilon^2)을 만족하는 ψj\psi_j가 존재하면, 시계열 {Xt}\{X_t\}는 casual하다고 한다.

즉, XtX_t를 과거의 white noise들의 무한 합으로 나타낼 수 있다면 이를 인과적(casual)이라고 한다. → 결국 MA()\infty) 형태로 나타낼 수 있다!

→ 시계열 Xt{X_t}가 과거의 노이즈들에 의해 생성된다. → 이는 미래의 값들이 현재의 XtX_t에 반영되지 않아 ‘인과적’이라고 말할 수 있다.

3.5 ARMA Model

ARMA Model of order p and qARMA(p,q):Xt=φ0+φ1Xt1++φpXtp+ϵt+θ1ϵt1++θqϵtqwhere {wt}iidWN(0,σϵ2),E[Xsϵt]=0 if s<t,φs,θks are all real numbers, φp,θq0\text{ARMA Model of order p and q} \\ ARMA(p,q):X_t=\varphi_0+\varphi_1X_{t-1}+\cdots+\varphi_pX_{t-p}+\epsilon_t + \theta_1\epsilon_{t-1}+\cdots+\theta_q\epsilon_{t-q} \\ \text{where }\{w_t\}\sim^{iid }WN(0,\sigma_\epsilon^2),E[X_s\epsilon_t]=0 \text{ if }s<t, \\ \varphi's, \theta_k's \text{ are all real numbers, }\varphi_p,\theta_q\neq0

결국 시간 t에서의 값 XtX_t을 과거의 XtX_t 값들과(AR) white noise 값들(MA)를 동시에 활용해 설명하는 model.

MA(q) AR(p) ARMA(p, q)
(p > 0, q > 0)
ACF Cuts off after lag q Tails off Tails off
PACF Tails off Cuts off after lag p Tails off

Reference

Shumway, R. H., & Stoffer, D. S. (2017). Time Series Analysis and Its Applications: With R Examples. Springer.

profile
@Yonsei University

0개의 댓글