[시계열] Chapter 06

유니·2022년 3월 23일
0

시계열

목록 보기
3/9

6. 시계열의 통계 모델

  1. 자기 회귀 모델, 이동평균 모델, 자기회귀누적이동평균 모델
  2. 벡터자기회귀
  3. 계층형 모델

선형회귀를 사용하지 않는 이유

선형회귀 분석 : 독립항등분포 데이터가 있다는 것을 가정
→ 시계열 데이터는 해당되지 않지만 다음 가정 이 성립되면 일반적인 최소제곱선형회귀 모델을 적용할 수 있음

  • 시계열의 행동에 대한 가정
    • 시계열은 예측 변수에 대한 선형적 반응을 보인다
    • 입력 변수는 시간에 따라 일정하지 않거나 다른 입력 변수와 완벽한 상관관계를 갖지 않는다
  • 오차에 대한 가정
    • 각 시점의 데이터에 대해 모든 시기의 모든 설명변수에 대한 예상 오차 값은 0이다
    • 특정 시기의 오차는 과거나 미래의 모든 시기에 대한 입력과 관련이 없다
    • 오차의 분산은 시간으로부터 독립적이다

→ 보통최소제곱회귀는 주어진 입력에 대한 계수의 비편향추정량이 된다


시계열을 위해 개발된 통계 모델

📌 자기회귀(AR) 모델

: 과거가 미래를 예측한다는 직관적인 사실에 의존

AR(1) 모델의 시스템 : yt=b0+b1×yt1+ety_t = b_0 + b_1\times y_{t-1}+e_t
시간 tt에서 계열의 값은 상수 b0b_0, 이전 시간 단계에서 값에 상수를 곱한 b1×yt1b_1\times y_{t-1} 시간에 따라 달라지는 오차항 ete_t에 대한 함수이다

AR(1) 모델은 하나의 원인 변수만 지닌 간단한 선형회귀 모델과 동일한 형식을 가짐
Y=b0+b1×x+eY=b_0+b_1\times x + e

b0b_0b1b_1 값을 알고 있다면 주어진 y_{t-1}조건에서의 yty_t의 기대값과 분산을 계산할 수 있음

E(ytyt1)=b0+b1×yt1+etE(y_t\mid y_{t-1})=b_0+b_1\times y_{t-1}+e_t
Var(ytyt1)=Var(et)=Var(e)Var(y_t\mid y_{t-1})=Var(e_t)=Var(e)

→ 일반화하면 현재 값이 의존하는 가장 최근 값들을 p로 조절해 AR(p)를 생성
yt=ϕ0+ϕ1×yt1++ϕp×ytp+ety_t = \phi_0+\phi_1\times y_{t-1}+\cdots+\phi_p\times y_{t-p}+e_t

정상성

정상이라고 가정한다면 yt=ϕ0+ϕ1×yt1+ety_t=\phi_0+\phi_1\times y_{t-1}+e_t
정상성의 가정으로부터 과정의 기대 값은 모든 시간에서 동일해야 한다

정의에 따르면 ete_t의 기대 값은 0, ϕ\phi는 상수항으로 기대값은 상수값 그대로
→ 위의 식을 축약하면 E(yt)=E(ϕ0+ϕ1×yt1+etE(y_t)=E(\phi_0+\phi_1\times y_{t-1}+e_t, E(yt)=μE(y_t) = \mu
μ=ϕ01ϕ1\therefore \mu=\frac{\phi_0}{1-\phi_1}
식을 정리하면 다음과 같고 과정의 평균과 근본적인 AR(1) 계수의 관계를 알 수 있다

위와 유사하게 일정한 분산과 공분산이 ϕ\phi 계수에 조건을 부과하는 방식을 알 수 있다
ytμ=et+ϕ×et1+ϕ2×et2+y_t-\mu=e_t+\phi\times e_{t-1}+\phi^2\times e_{t-2}+\cdots
→ 서로 다른 tt에서의 ete_t값이 독립적일 때 기대 값 계산에 사용될 수 있고 이로부터 yt1y_{t-1}ete_t의 공분산이 0이라는 결론을 내릴 수 있다

유사한 논리로 이 식을 제곱해 yty_t의 분산도 계산할 수 있다
var(yt)=var(et)1ϕ2var(y_t)=\frac{var(e_t)}{1-\phi^2}
→ 분산이 0보다 크거나 같아야 한다는 정의에 따라 ϕ2\phi^2이 반드시 1보다 작아야 한다

AR(p) 모델의 파라미터 선택

과정과 편자기상관함수(PACF)의 그래프 그려보기

📌 이동평균(MA) 모델

: 각 시점의 데이터가 최근의 과거 값에 대한 오차항으로 구성된 함수로 표현된 과정에 의존

차수 qq에 대한 MA 모델 : yt=μ+et+θ1×et1++θq×etqy_t=\mu+e_t+\theta_1\times e_{t-1}+\cdots+\theta_q\times e_{t-q}
→ 각 사건이 개별로 현재의 값에 기여함

MA 모델은 파라미터에 어떠한 제약 사항도 부여할 필요가 없는 약한 정상성
→ 오차항이 평균을 0으로 하는 독립항등분포라고 가정하여 MA과정의 평균과 분산 모두가 유한하고 시간에 따라 불변하기 때문
E(yt)=E(μ)+θ1×0+θ2×0+=μE(y_t)=E(\mu)+\theta_1\times 0+\theta_2\times 0+\cdots=\mu

독립항등분포를 따르는 변수들 간의 공분산은 0
Var(yt)=(1+θ12+θ22++θq2)×σe2Var(y_t)=(1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2)\times \sigma_e^2

MA 과정의 평균과 분산 모두 파라미터 값에 상관없이 시간에 따라 일정한 값을 가짐

📌 자기회귀누적이동평균(ARIMA) 모델

: AR 및 MA 모델의 역동성을 모두 동시에 포괄하는 모델

그래프AR(p)MA(q)ARIMA
ACF천천히 감소지연 q이후 빠르게 감소가파른 절단 없음
PACF지연 q이후 빠르게 감소천천히 감소가파른 절단 없음

AR이나 MA 항을 단독으로 역동성을 충분히 설명하지 못하기 때문에 ARIMA 모델로 결정됨

yt=ϕ0+(ϕ1×;rti)+et(θt×eti)y_t=\phi_0+\sum(\phi_1\times ;r_{t-i})+e_t-\sum(\theta_t\times e_{t-i})

ARIMA 모델의 차분의 차수가 너무 크지 않아야 한다
→ 모델을 구성하는 각 파라미터 값은 부적절한 복잡성과 샘플 데이터에 대한 과적합을 피하기 위해 가능한 한 작게 유지되어야 한다

📌 벡터자기회귀(VAR)

: 정리된 데이터를 최대로 활용하는 방법

시계열 3개가 있을 때, 각 시간 tt에서 각 시계열들의 값을 y1,t,y2,t,y3,ty_{1, t}, y_{2, t}, y_{3, t}
차수 2인 벡터자기회귀 방정식 :
y1,t=ϕ01+ϕ11,1×y1,t1+ϕ12,1×y2,t1+ϕ13,1×y3,t1+ϕ11,2×y1,t2+ϕ12,2×y2,t2+ϕ13,2×y3,t2y_{1, t} = \phi_01+\phi_{11, 1}\times y_{1, t-1}+\phi_{12,1}\times y_{2, t-1}+\phi_{13,1}\times y_{3,t-1}+\phi_{11,2}\times y_{1,t-2}+\phi_{12,2}\times y_{2,t-2}+\phi_{13,2}\times y_{3,t-2}
y2,t=ϕ02+ϕ21,1×y1,t1+ϕ22,1×y2,t1+ϕ23,1×y3,t1+ϕ21,2×y1,t2+ϕ22,2×y2,t2+ϕ23,2×y3,t2y_{2, t} = \phi_02+\phi_{21, 1}\times y_{1, t-1}+\phi_{22,1}\times y_{2, t-1}+\phi_{23,1}\times y_{3,t-1}+\phi_{21,2}\times y_{1,t-2}+\phi_{22,2}\times y_{2,t-2}+\phi_{23,2}\times y_{3,t-2}
y3,t=ϕ03+ϕ31,1×y1,t1+ϕ32,1×y2,t1+ϕ33,1×y3,t1+ϕ31,2×y1,t2+ϕ32,2×y2,t2+ϕ33,2×y3,t2y_{3, t} = \phi_03+\phi_{31, 1}\times y_{1, t-1}+\phi_{32,1}\times y_{2, t-1}+\phi_{33,1}\times y_{3,t-1}+\phi_{31,2}\times y_{1,t-2}+\phi_{32,2}\times y_{2,t-2}+\phi_{33,2}\times y_{3,t-2}

→ 간단한 경우에도 모델의 파라미터 개수가 빠르게 증가

한 변수가 다른 변수를 야기하는지의 여부를 검정하는 상황에서 VAR 모델 유용하게 사용

통계 모델의 변형

  • 계절성 ARIMA
  • ARCH, GARCH
  • 계층적 시계열 모델

시계열 통계 모델의 장단점

장점

  • 간단하고 투명해서 모델의 파라미터 측면에서 보면 명확하게 이해할 수 있다
  • 간단한 수학적 표현으로 철저히 통계적인 방식으로 관심 속성을 도출하는 것이 가능
  • 작은 데이터셋에 적용해도 좋은 결과를 얻을 수 있다
  • 과적합이라는 위험성 없이도 좋은 성능을 얻을 수 있다
  • 모델의 차수 선택 및 파라미터 추정에 대해 잘 개발된 자동화 방법론은 예측을 간단하게 만든다

단점

  • 데이터셋이 커지더라도 항상 성능 향상을 보장하지 않는다
  • 분포보다는 분포의 평균값 추정에 집중한다
  • 비선형 관계가 많은 데이터를 설명하는 데 적합하지 않다

0개의 댓글