6. 시계열의 통계 모델
- 자기 회귀 모델, 이동평균 모델, 자기회귀누적이동평균 모델
- 벡터자기회귀
- 계층형 모델
선형회귀를 사용하지 않는 이유
선형회귀 분석 : 독립항등분포 데이터가 있다는 것을 가정
→ 시계열 데이터는 해당되지 않지만 다음 가정 이 성립되면 일반적인 최소제곱선형회귀 모델을 적용할 수 있음
- 시계열의 행동에 대한 가정
- 시계열은 예측 변수에 대한 선형적 반응을 보인다
- 입력 변수는 시간에 따라 일정하지 않거나 다른 입력 변수와 완벽한 상관관계를 갖지 않는다
- 오차에 대한 가정
- 각 시점의 데이터에 대해 모든 시기의 모든 설명변수에 대한 예상 오차 값은 0이다
- 특정 시기의 오차는 과거나 미래의 모든 시기에 대한 입력과 관련이 없다
- 오차의 분산은 시간으로부터 독립적이다
→ 보통최소제곱회귀는 주어진 입력에 대한 계수의 비편향추정량이 된다
시계열을 위해 개발된 통계 모델
📌 자기회귀(AR) 모델
: 과거가 미래를 예측한다는 직관적인 사실에 의존
AR(1) 모델의 시스템 : yt=b0+b1×yt−1+et
시간 t에서 계열의 값은 상수 b0, 이전 시간 단계에서 값에 상수를 곱한 b1×yt−1 시간에 따라 달라지는 오차항 et에 대한 함수이다
AR(1) 모델은 하나의 원인 변수만 지닌 간단한 선형회귀 모델과 동일한 형식을 가짐
Y=b0+b1×x+e
b0와 b1 값을 알고 있다면 주어진 y_{t-1}조건에서의 yt의 기대값과 분산을 계산할 수 있음
E(yt∣yt−1)=b0+b1×yt−1+et
Var(yt∣yt−1)=Var(et)=Var(e)
→ 일반화하면 현재 값이 의존하는 가장 최근 값들을 p로 조절해 AR(p)를 생성
yt=ϕ0+ϕ1×yt−1+⋯+ϕp×yt−p+et
정상성
정상이라고 가정한다면 yt=ϕ0+ϕ1×yt−1+et
정상성의 가정으로부터 과정의 기대 값은 모든 시간에서 동일해야 한다
정의에 따르면 et의 기대 값은 0, ϕ는 상수항으로 기대값은 상수값 그대로
→ 위의 식을 축약하면 E(yt)=E(ϕ0+ϕ1×yt−1+et, E(yt)=μ
∴μ=1−ϕ1ϕ0
식을 정리하면 다음과 같고 과정의 평균과 근본적인 AR(1) 계수의 관계를 알 수 있다
위와 유사하게 일정한 분산과 공분산이 ϕ 계수에 조건을 부과하는 방식을 알 수 있다
yt−μ=et+ϕ×et−1+ϕ2×et−2+⋯
→ 서로 다른 t에서의 et값이 독립적일 때 기대 값 계산에 사용될 수 있고 이로부터 yt−1과 et의 공분산이 0이라는 결론을 내릴 수 있다
유사한 논리로 이 식을 제곱해 yt의 분산도 계산할 수 있다
var(yt)=1−ϕ2var(et)
→ 분산이 0보다 크거나 같아야 한다는 정의에 따라 ϕ2이 반드시 1보다 작아야 한다
AR(p) 모델의 파라미터 선택
과정과 편자기상관함수(PACF)의 그래프 그려보기
📌 이동평균(MA) 모델
: 각 시점의 데이터가 최근의 과거 값에 대한 오차항으로 구성된 함수로 표현된 과정에 의존
차수 q에 대한 MA 모델 : yt=μ+et+θ1×et−1+⋯+θq×et−q
→ 각 사건이 개별로 현재의 값에 기여함
MA 모델은 파라미터에 어떠한 제약 사항도 부여할 필요가 없는 약한 정상성
→ 오차항이 평균을 0으로 하는 독립항등분포라고 가정하여 MA과정의 평균과 분산 모두가 유한하고 시간에 따라 불변하기 때문
E(yt)=E(μ)+θ1×0+θ2×0+⋯=μ
독립항등분포를 따르는 변수들 간의 공분산은 0
Var(yt)=(1+θ12+θ22+⋯+θq2)×σe2
MA 과정의 평균과 분산 모두 파라미터 값에 상관없이 시간에 따라 일정한 값을 가짐
📌 자기회귀누적이동평균(ARIMA) 모델
: AR 및 MA 모델의 역동성을 모두 동시에 포괄하는 모델
그래프 | AR(p) | MA(q) | ARIMA |
---|
ACF | 천천히 감소 | 지연 q이후 빠르게 감소 | 가파른 절단 없음 |
PACF | 지연 q이후 빠르게 감소 | 천천히 감소 | 가파른 절단 없음 |
AR이나 MA 항을 단독으로 역동성을 충분히 설명하지 못하기 때문에 ARIMA 모델로 결정됨
yt=ϕ0+∑(ϕ1×;rt−i)+et−∑(θt×et−i)
ARIMA 모델의 차분의 차수가 너무 크지 않아야 한다
→ 모델을 구성하는 각 파라미터 값은 부적절한 복잡성과 샘플 데이터에 대한 과적합을 피하기 위해 가능한 한 작게 유지되어야 한다
📌 벡터자기회귀(VAR)
: 정리된 데이터를 최대로 활용하는 방법
시계열 3개가 있을 때, 각 시간 t에서 각 시계열들의 값을 y1,t,y2,t,y3,t
차수 2인 벡터자기회귀 방정식 :
y1,t=ϕ01+ϕ11,1×y1,t−1+ϕ12,1×y2,t−1+ϕ13,1×y3,t−1+ϕ11,2×y1,t−2+ϕ12,2×y2,t−2+ϕ13,2×y3,t−2
y2,t=ϕ02+ϕ21,1×y1,t−1+ϕ22,1×y2,t−1+ϕ23,1×y3,t−1+ϕ21,2×y1,t−2+ϕ22,2×y2,t−2+ϕ23,2×y3,t−2
y3,t=ϕ03+ϕ31,1×y1,t−1+ϕ32,1×y2,t−1+ϕ33,1×y3,t−1+ϕ31,2×y1,t−2+ϕ32,2×y2,t−2+ϕ33,2×y3,t−2
→ 간단한 경우에도 모델의 파라미터 개수가 빠르게 증가
한 변수가 다른 변수를 야기하는지의 여부를 검정하는 상황에서 VAR 모델 유용하게 사용
통계 모델의 변형
- 계절성 ARIMA
- ARCH, GARCH
- 계층적 시계열 모델
시계열 통계 모델의 장단점
장점
- 간단하고 투명해서 모델의 파라미터 측면에서 보면 명확하게 이해할 수 있다
- 간단한 수학적 표현으로 철저히 통계적인 방식으로 관심 속성을 도출하는 것이 가능
- 작은 데이터셋에 적용해도 좋은 결과를 얻을 수 있다
- 과적합이라는 위험성 없이도 좋은 성능을 얻을 수 있다
- 모델의 차수 선택 및 파라미터 추정에 대해 잘 개발된 자동화 방법론은 예측을 간단하게 만든다
단점
- 데이터셋이 커지더라도 항상 성능 향상을 보장하지 않는다
- 분포보다는 분포의 평균값 추정에 집중한다
- 비선형 관계가 많은 데이터를 설명하는 데 적합하지 않다