일정한 시간간격으로 수집한 데이터(관측치) 집합이다. 시계열이 어떤 법칙으로 생성되는지 연구하고, 수학적 모델을 만들어 미래에 대한 데이터를 예측하는것을 목적으로한다.
앞서 말했듯이 시계열 데이터는 시간에 종속적이며, 아래의 설명에서 시계열 데이터의 특징을 잘 설명한다.
Most time series models work under the assumption that the underlying data is stationary, that is the mean, variance, and covariance are not time-dependent.
대부분의 시계열 모델들은 통계적 특성인 평균
, 분산
, 공분산이 시간에 의존적이지 않은 Stationary한 잠재적인 데이터라는 가정하에 작동한다.
동일한 모집단
의 통계적 특성이 시간이 지날수록 달라지게 되면 해당 시계열 모델은 Non-Stationary 하며, 평균과 분산이 고르지 못한다.
Non-Stationarity를 가지는 데이터들을 다룰때는, Non-Stationarity >> Stationarity 특성으로 변환시켜야 한다.
이를 정리하면 아래와 같다.
정상성 (Stationarity)
비정상성 (Non-Stationarity)
참고: 시계열 데이터 시간 축은, 반드시 Fixed Time에서의 관측치어야 한다. i.e, Yearly 간격으로 데이터를 특성을 통계했다면, 쭈욱 Yearly로 통계를 해야한다.
장기간 동안(1년 이상), 데이터가 증가 또는 하강하는 추세가 존재하며, 선형적일 필요는 없다.
1년미만의 주기동안 특정한 이벤트로 (Seasonal Factor)에 의해 데이터가 영향을 받아 데이터의 증가 또는 감소가 발생한다.
특정한 이벤트는, 주말동안 매출량의 증가 또는 감소가 될수있거나 넓게는 가격의 변동으로 인해 데이터가 증가 또는 감소가 될수있다.
아래는 당뇨병 약 판매에 대한 그래프로, 장기간동한 상승과 감소의 추세를 보여주며, Seasonal Factor (당뇨병 약의 가격 변동)로 데이터의 변동이 보인다.
순환 변동 (Cyclic Variation)
고정된 주기로 나타나는 데이터의 변동이 아니다. 주로 Bussiness Cycle과 관련있는, 경제적 조건 (정책 및 기타)으로 데이터의 변동이며. 보통 2년의 주기로 나타난다고 한다.
불규칙 변동 (Irregular Variation)
1 ~ 3번으로 표현할수 없는 패턴이다. 하지만, 상대적으로 Stationarity한 특성을 가지기에, 통계적 특성이 변동폭이 크지 않고 일정한 경향을 보인다. 정상성을 고려한 모델을 사용할수 있다.