시계열 데이터

Yougurt_Man·2022년 4월 3일
0

Deep Learning

목록 보기
4/7

시계열 데이터

일정한 시간간격으로 수집한 데이터(관측치) 집합이다. 시계열이 어떤 법칙으로 생성되는지 연구하고, 수학적 모델을 만들어 미래에 대한 데이터를 예측하는것을 목적으로한다.

앞서 말했듯이 시계열 데이터는 시간에 종속적이며, 아래의 설명에서 시계열 데이터의 특징을 잘 설명한다.

Most time series models work under the assumption that the underlying data is stationary, that is the mean, variance, and covariance are not time-dependent.

대부분의 시계열 모델들은 통계적 특성인 평균, 분산, 공분산이 시간에 의존적이지 않은 Stationary한 잠재적인 데이터라는 가정하에 작동한다.

  • 평균: 데이터의 평균
  • 편차: 모집단의 평균과, 데이터의 차이값.
  • 분산: 평균과의 편차. 분산이 넓을수록 편차가 크고 그래프가 완만하다. 편차가 좁을수록, 평균에 가깝기 때문에 중앙에서 오목한 모양을 가진다.

동일한 모집단의 통계적 특성이 시간이 지날수록 달라지게 되면 해당 시계열 모델은 Non-Stationary 하며, 평균과 분산이 고르지 못한다.

Non-Stationarity를 가지는 데이터들을 다룰때는, Non-Stationarity >> Stationarity 특성으로 변환시켜야 한다.

이를 정리하면 아래와 같다.

정상성 (Stationarity)

  • 정상성을 나타내는는 시계열은 통계적 특성이 시간과 무관한 데이터이다. 대표적으로 White Noise가 있다.
  • 뚜렷한 추세(Trend)가 존재하지 않으며 시계열 변동이 일정한것처럼 보인다.
  • 즉 평균과 분산이 일정하며, 시점/시간에 의존하지 않는다.

비정상성 (Non-Stationarity)

  • 추세 (Trend) 및 계절성(Seasonarity)에 의존하는 시계열이다.
  • 서로 다른 시대/시점에서 평균과 분산이 서로 다르며, 시간이 지남에따라 시계열의 통계적 특성이 (평균과 분산)이 커지나 작아진다. e.g) 장난감 판매량이 추수감사절 / 크리스마스가 포함된 9-12월에 급증.

참고: 시계열 데이터 시간 축은, 반드시 Fixed Time에서의 관측치어야 한다. i.e, Yearly 간격으로 데이터를 특성을 통계했다면, 쭈욱 Yearly로 통계를 해야한다.

시계열 변동 요인 및 패턴

  1. 추세 변동 (Trend Variation)

장기간 동안(1년 이상), 데이터가 증가 또는 하강하는 추세가 존재하며, 선형적일 필요는 없다.

  1. 계절성 변동 (Seasonal-Variation)

1년미만의 주기동안 특정한 이벤트로 (Seasonal Factor)에 의해 데이터가 영향을 받아 데이터의 증가 또는 감소가 발생한다.

특정한 이벤트는, 주말동안 매출량의 증가 또는 감소가 될수있거나 넓게는 가격의 변동으로 인해 데이터가 증가 또는 감소가 될수있다.

아래는 당뇨병 약 판매에 대한 그래프로, 장기간동한 상승과 감소의 추세를 보여주며, Seasonal Factor (당뇨병 약의 가격 변동)로 데이터의 변동이 보인다.

  1. 순환 변동 (Cyclic Variation)
    고정된 주기로 나타나는 데이터의 변동이 아니다. 주로 Bussiness Cycle과 관련있는, 경제적 조건 (정책 및 기타)으로 데이터의 변동이며. 보통 2년의 주기로 나타난다고 한다.

  2. 불규칙 변동 (Irregular Variation)
    1 ~ 3번으로 표현할수 없는 패턴이다. 하지만, 상대적으로 Stationarity한 특성을 가지기에, 통계적 특성이 변동폭이 크지 않고 일정한 경향을 보인다. 정상성을 고려한 모델을 사용할수 있다.

profile
Greek Yogurt

0개의 댓글