Arima와 주요 단어 정리

Jayce_97·2024년 6월 2일
0

스터디

목록 보기
7/10

0-1. 시계열

  • 시계열 구성 요소
    • 추세(Trend)
      • 데이터가 장기간 증가하거나 감소하는 영향
    • 계절성(Seasonality)
      • 일정한 주기로 반복되는 주기적인 패턴
      • e.g. 한 해 동안의 계절적인 변동이나 월간 패턴
    • 주기성(Cycle)
      • 일정한 주기
      • 계절성과 달리 규칙적이지 않을 수 있음
    • 잡음(Noise)
      • 불규칙하고 예측하기 어려운 무작위한 변동
      • 시계열 데이터에서 발생하는 랜덤한 오차 혹은 불규칙성을 나타냄
  • 시계열 분석에서는 위와 같은 구성 요소들을 분리하고 모델링하여 데이터의 패턴을 이해, 미래 값을 예측하는데 사용됨
  • ARIMA 모델과 같은 경우, 추세(Trend), 계절성(Seasonality) 및 잡읍(Noise) 를 고려하여 시계열 데이터를 모델링 할 수 있다.
  • 추가로, 계절성이나 주기성이 뚜렷한 경우, SARIMA 혹은 Prophet 과 같은 모델들을 사용할 수 있다.

1. ARIMA

  • Auto Regressive Integrated Moving Average
  • 시계열 데이터를 분석하고 예측하는데 사용되는 통계적인 모델
  • 아래의 구성요소를 결합하여 시계열 데이터의 패턴, 추세(trend), 계절성을 설명하고 예측.
  • 정상성(Stationary) 를 기반으로 두고 계산되기 때문에 주어진 시계열 데이터가 정상성을 갖지 못하는 경우, 차분을 통해 정상성을 확보하고 모델을 적용합니다.

1-1. 구성요소

1-1-1. AR (Auto regressive)

  • 자기회귀
  • 현재 값이 이전의 값들에 의존하는 모델
    • 과거의 관측치의 선형 조합
  • AR(p) 는 p 개의 이전 값에 의존하는 모델
    • p = 자기회귀의 차수(이전 관측치의 개수)
    • p → 모델의 복잡성
  • AR 모델은 데이터의 자기상관(Auto correlation) 구조를 모델링하는데 좋다
  • 아래의 식과 같이 설명할 수 있다.
    AR(p)model:yt=α0+α1yt1+...+αpytpAR(p) model: y_t = \alpha_0 + \alpha_1y_{t-1} + ... + \alpha_py_{t-p}
    • yty_t 현재 시점의 값
    • ytpy_{t-p} 이전 시점들의 값
    • alpha 자기회귀 계수
      • 모델의 핵심 파라미터
      • 이 값들이 어떻게 설정되느냐에 따라 모델이 데이터의 동적인 특성을 얼마나 잘 캡쳐하는지가 결정됨
      • 즉, 각 자기회귀 계수는 해당 시점 전의 값을 현재 값에 얼마나 강하게 반영할지를 결정
      • 대충 전 값에 대한 가중치

1-1-2. D (Differencing)

  • 차분(yt)=ytyt1(y_t) = y_t - y_{t-1}
    • MA 와 AR 과는 다르게, 모델은 아니고 작업이라고 생각하면 좋을 듯
    • 현재 시점의 값과 이전 시점의 값을 빼는 작업
  • 시계열 데이터에서 차분은 데이터의 추세(Trend) 나 계절성(Seasonality) 를 제거하거나 정상성(Stationary) 를 확보하기 위해 사용됨
    • 비정상성(non-stationary) 를 정상성(stationary) 로 변환하는데에 적용됨
  • 만약, 시계열 데이터가 일정한 간격으로 측정된다면 (e.g. 매일, 매월) YtYt1Y_t - Y_{t-1} 은 주어진 간격에 대한 차분
    • 매 12월 샴페인 판매에서 다뤘던 차분을 예시로 들자면,
      Zt=ytyt12Z_t = y_t - y_{t-12}
  • 만약, 데이터가 계절성과 추세를 포함하고 있는 경우, (한 번의 차분이 충분하지 않은 경우,) 여러 차분을 하기도 한다.

1-1-3. MA (Moving Average)

  • 이동평균
  • 현재 값이 이전의 오차 항에 의존
  • MA(q) 는 q 개의 이전 오차 항 (이동평균의 차수) 에 의존
    • q = 이전 예측 오차의 개수
  • 이전 시점들의 예측 오차에 대한 가중 평균을 사용하여 현재 시점의 값을 예측
  • 주로 랜덤한 변동을 모델링하고 예측하는데 사용됨
    • e.g. 주식가격, 경제지표
  • 백색 잡음의 영향을 반영
  • AR 모델과 함께 사용되며, ARMA, ARIMA 등으로 확장될 수 있다.
  • 아래의 식과 같이 설명할 수 있다.
    MA(q)model:yt=ϵt+β1ϵt2+...+βqϵtqMA(q) model: y_t = \epsilon_t + \beta_1\epsilon_{t-2} + ... + \beta_q\epsilon_{t-q}
    • y_t 현재 시점의 값
    • e_t 현재 시점의 예측 오차(백색 잡음)
    • beta_t-q 이전 시점들의 예측 오차
  • 추가설명
    • MA 모델에서 White Noise 는 예측 오차를 나타낸다
      • MA 모델은 현재 시점의 값이 이전 시점들의 예측 오차에 의존하는 모델로,
      • 이전 시점들의 백색 잽음이라고 부르는 예측 오차들을 합한 가중 평균을 사용하여 현재값을 예측함
    • MA 모델은 예측 오차가 백색 잡음에 가까워야 하며, 이것은 모델이 시계열 데이터의 랜덤한 변동을 효과적으로 캡처하고 있다는 의미이다.

1-2. ARMA 와 ARIMA

1-2-1. ARMA

  • Auto Regressive Moving Average
  • 자기회귀와 이동평균
  • ARMA(p, q) 는 자기회귀 차수 p 와 이동평균 차수 q 를 갖고있음
  • ARMA 는 주어진 시계열 데이터가 이미 정상성을 가진 경우에 사용됨
  • 아래의 식과 같이 설명할 수 있다.
    ARMA(p,q)model:yt=α0+α1yt1+...+αpytp+ϵt+β1ϵt2+...+βqϵtqARMA(p,q) model: y_t = \alpha_0 + \alpha_1y_{t-1} + ... + \alpha_py_{t-p} + \epsilon_t + \beta_1\epsilon_{t-2} + ... + \beta_q\epsilon_{t-q}
    • alpha 는 자기회귀 계수
    • beta 는 이동평균 계수
    • e 는 이전 시점들의 예측 오차
  • 참고
    ARMA(0,0):yt=α0+ϵtARMA(0,0): y_t = \alpha_0 + \epsilon_t
    ARMA(1,0):yt=α0+α1yt1+ϵtARMA(1,0): y_t = \alpha_0 + \alpha_1y_{t-1} + \epsilon_t
    ARMA(0,1):yt=α0+ϵt+β1ϵt1ARMA(0,1): y_t = \alpha_0 + \epsilon_t + \beta_1\epsilon_{t-1}

1-2-2. ARIMA

  • Auto Regressive Integrated Moving Average
  • 자기회귀와 이동평균 그리고 Integrated(차분) 을 포함하는 종합적인 모델
  • ARIMA(p, d, q) 는 자기회귀 차수 p, 차분 차수 d, 이동평균 차수 q 를 갖고 있음
  • 시계열 데이터의 추세나 계절성을 제거하고 정상성을 확보하기 위해 차분을 사용함
  • 비정상적인 시계열 데이터를 정상성으로 변환한 후 AR 및 MA 를 사용하여 모델링함
  • 추가 설명
    • d=0이면, ARMA(p,q)모형이라 부르고 이 모형은 정상성을 만족한다.
    • p=0이면, IMA(d,q)모형이라 부르고 d번 차분하면 MA(q)모형을 따르게 된다.
    • q=0이면, ARI(p,d)모형이라 부르며, d번 차분한 시계열이 AR(p)모형을 따르게 된다.

2. Stationary

  • a.k.a 정상성
  • 시계열 데이터의 특성 중 하나
  • 시간에 따라 평균(mean) 과 분산(variance)이 변하지 않으며, 자기공분산(auto covariance) 이 시간의 함수로 나타나지 않는다.
    • 관측된 시간에 무관
    • 추세나 계절성이 있는 시계열은 정상성을 나타내는 시계열이 아님
      • 왜냐하면 추세( Trend) 와 계절성(Seasonality) 는 시간과 연관되어 있기 때문에
    • 반면에 white noise 는 Stationary 라고 한다.
      • White noise란
        • it should look much the same at any point in time.
        • 특정한 구조나 패턴이 없는, 완전히 무작위한 시계열 데이터
  • 정상성을 만족하기 위한 세 가지 조건
    • 시간에 따라 평균이 일정
    • 시간에 따라 분산이 일정
    • 자기공분산이 시간 차이에만 의존
      • 시차(lag) 가 변함에 따라 자기공분산이 크게 변하지 않아야 함
  • 정상성을 가지지 않는 시계열 데이터에 대해서는 정상성을 확보하기 위해 차분(Differencing)을 통해 추세나 계절성을 제거하고, 로그 변환과 같은 전처리 과정을 수행

3. ACF & PACF

  • auto arima 를 사용하지 않고 모델을 결정하기 위해선 acf 함수와 pacf 함수를 활용한다.
    • 각 함수를 통하여 그래프를 그려서 시계열 데이터의 구조를 파악하고 적절한 모델을 선택하는데 도움이 된다.
  • acf 는 자기상관 함수이며, pacf 는 부분 자기상관함수 이다.
    • acf (Auto Correlation Function)
    • pacf (Partial Auto Correlation Function)

3-1. ACF

  • 시계열 데이터의 자기상관을 나타내는 함수이다.
  • 자기상관은 시계열 데이터의 한 시점에서의 값이 그 이전 시점들과 얼마나 상관관계가 있는지를 측정한다.
  • ACF 는 시간 간격 (라그, lag) 에 따른 자기상관 계수를 나타내며 일반적으로 시간 간격이 0일 때 1이 된다.
    • 왜냐하면 시간 간격이 0이면 본인 스스로이니까 1
  • ACF 는 시계열 데이터의 전체적인 상관관계를 보여주며, 시계열이 자기회귀 구조를 가지고 있는지 확인하는데 사용된다.
  • 식은 아래와 같다.
    ACF(k)=자료의k시간간격이전의값들과현재값간의공분산현재값의분산ACF(k) = \frac{자료의 k 시간 간격 이전의 값들과 현재 값 간의 공분산}{현재 값의 분산}

3-2. PACF

  • 특정 시점 간의 자기상관을 나타낸다.
    • 다른 시점의 영향을 배제한 자기 상관관계 측정
    • 다른 시간 간격의 영향을 제거하고 특정 시간 간격에서의 자기상관
  • ARIMA 모델의 차수 p 를 결정하는데 사용된다.
    • p 는 자기회귀 차수임
  • PACF 의 급격한 감소 또는 소멸을 통해 모델의 차수를 추정할 수 있다.
    • 해당 시간 간격에서의 자기회귀 계수는 중요하며, 모델에 포함될 필요할 수 있음
  • PACF 의 급증
    • 해당 시간 간격에서의 자기회귀 계수는 별로 중요하지 않을 수 있음
  • 식은 아래와 같다.
    PACF(k)=AR(k)i=1k1PACF(i)AR(ki)PACF(k) = AR(k) - \sum_{i=1}^{k-1}{PACF(i) * AR(k-i)}
    • k 시간간격에서의 자기회귀 계수

4. SARIMAX

  • a.k.a Seasonal ARIMA extended
  • SARIMAX(p, d, q)x(P, D, Q, S) 모델에서
    • p, d, q 는 비계절성 구성요소, (위에 아리마의 구성요소),
    • P, D, Q, S 는 계절성 구성요소
      • P (Seasonal Auto regressive Order)
        • 계절성 자기회귀의 차수
        • 시계열 데이터에서 한 주기(계절) 내에서 현재 값이 이전 값들에 얼마나 의존하는지
      • D (Seasonal Difference Order)
        • 계절성 차분의 차수
        • 시계열 데이터의 계절성을 확보하기 위해 얼마나 많이 차분을 적용할지
      • Q (Seasonal Moving Average Order)
        • 계절성 이동평균의 차수
        • 계절성 구성요소의 백색 잡음 (white noise) 에 대한 이동평균의 차수
      • S (Seasonal Periodicity)
        • 계절성 주기
        • 데이터에서 반복되는 주기의 길이

5. White noise

  • 무작위성을 나타내는 일련의 값들
  • 각각의 값은 서로 독립적이며 동일한 확률분포
  • 시간에 따른 어떠한 구조나 패턴을 갖고있지 않음
  • 각 시점에서의 값은 예측 불가능 → 그 값 이전이나 이후의 값에 영향 없음
  • 주요 특징
    • 독립성 (Independence)
    • 일정한 분포 (Constant Distribution)
    • 평균이 0
  • 사용 이유
    • 통계적 모델링이나 시계열 분석에서 중요한 개념
    • 예를들어, 시계열 모델의 오차 항(residuals) 이 white noise 에 가까울수록 모델의 예측이 높은 품질을 가질 것으로 생각됨
    • 또한 white noise 는 시계열 데이터에서 실제로 발생하는 랜덤한 변동이나 잡음을 모델링 하는데 사용된다
profile
AI (ML/DL) 학습

0개의 댓글