ARIMA(AutoRegressive Intergrated Moving Average) 모델은 시계열 데이터를 분석하고 예측하는 데 널리 사용되는 모델이다.
order 파라미터에서 AR(자기회귀), I(차분), MA(이동평균) 세 가지 구성 요소를 기반으로 한다.
주식 가격의 시계열이 있고 전날 가격을 사용하여 오늘 가격을 예측한다고 가정했을 때, 각 관찰에 대한 가중치를 계산해야 한다. 일반적으로 행렬 연산을 포함하는 최소 제곱과 같은 방법을 사용한다.
길이가 N인 시계열을 처리하고 차수가 p일 때, 최소 제곱 연산을 위해 처리할 행렬의 크기는 NN이다. 즉 수행해야 하는 작업의 수가 NN이다. p가 증가함에 따라 이러한행렬의 크기가 커져서 시간도 증가한다.
즉 길이가 1000인 시계열이 있다고 했을 때,
p = 1: 1000x1000
p = 2: 2000x2000
p = 3: 3000x3000
의 시간이 더 걸리게 된다.
d(차분의 차수): 차분은 시계열 데이터의 비정상성을 제거하는데 사용된다. 비정상성이란 시계열 데이터의 평균이 시간에 따라 변하거나, 분산이 시간에 따라 변하는 등 시계열 데이터의 통계적 속성이 시간에 따라 변하는 것을 말한다. 예를 들어 주식 가격이 시간이 지남에 따라 계속 상승하는 경향이 있다면 이는 비정상 시계열이라 할 수 있다. 이런 데이터에서 트렌드를 제거하기 위해 차분을 사용하여 d는 차분을 취하는 횟수를 나타낸다.
q(MA의 차수): 예측 오차의 이동평균을 사용하여 현재 시간 t의 값을 예측한다. 예를 들어 쥑 가격이 전날의 예측 오차에 의존적이라면 q를 1로 설정할 수 있다.