https://www.tableau.com/analytics/what-is-time-series-analysis
시계열 분석은 일정한 시간 간격을 두고 수집된 데이터 포인트의 일련을 분석하는 특정 방법입니다. 시계열 분석에서는 데이터를 불규칙적이거나 임의로 기록하는 것이 아니라, 일정한 간격으로 데이터를 수집합니다. 그러나 시계열 분석은 단순히 데이터를 시간 순서대로 수집하는 것 이상을 의미합니다.
시계열 데이터를 다른 데이터와 차별화하는 것은 이 분석이 변수가 시간에 따라 어떻게 변화하는지를 보여줄 수 있다는 점입니다. 다시 말해, 시간이 중요한 변수로 작용하며, 이는 데이터 포인트가 시간에 따라 어떻게 조정되는지와 최종 결과에 대한 정보를 제공합니다. 시계열 데이터는 데이터 간 종속성을 나타내며, 이를 통해 추가적인 정보를 제공하는 역할을 합니다.
시계열 분석은 일반적으로 일관성과 신뢰성을 확보하기 위해 많은 데이터 포인트가 필요합니다. 대규모 데이터 세트는 대표성을 확보하고, 노이즈 데이터를 제거하며, 발견된 패턴이 이상값(outliers)이 아닌 실제 경향을 나타내는지 확인하는 데 도움을 줍니다. 또한, 시계열 데이터는 과거 데이터를 기반으로 미래를 예측하는 예측에도 사용할 수 있습니다.
시계열 분석은 조직이 시간에 따른 추세나 패턴의 근본적인 원인을 이해하는 데 도움을 줍니다. 데이터를 시각화함으로써 사용자들은 계절적 경향을 볼 수 있으며, 이러한 경향이 발생하는 이유를 더 깊이 파악할 수 있습니다. 최신 분석 플랫폼을 통해 이 시각화는 단순한 선 그래프 이상의 다양한 형태로 제공됩니다.
조직이 일관된 간격으로 데이터를 분석하면, 시계열 예측을 통해 미래 사건의 발생 가능성을 예측할 수 있습니다. 시계열 예측은 예측 분석의 한 부분으로, 계절성이나 주기적 행동과 같은 데이터 변화 가능성을 보여주며, 이를 통해 데이터 변수를 더 잘 이해하고 더 정확한 예측을 할 수 있도록 도와줍니다.
예를 들어, Des Moines 공립학교는 5년간의 학생 성취 데이터를 분석해 위험 학생을 식별하고, 시간이 지남에 따라 성과를 추적했습니다. 오늘날의 기술을 통해 매일 엄청난 양의 데이터를 수집할 수 있으며, 일관된 데이터를 충분히 확보하여 종합적인 분석을 수행하는 것이 그 어느 때보다 쉬워졌습니다.
날씨 데이터
강수량 측정
온도 기록
심박수 모니터링(EKG)
뇌 활동 모니터링(EEG)
분기별 매출
주식 가격
자동 주식 거래
산업 예측
이자율
시계열 분석 유형
시계열 분석에는 다양한 데이터 범주가 포함되므로, 분석가들은 때때로 복잡한 모델을 만들어야 합니다. 그러나 모든 변동성을 다루거나 특정 모델을 모든 샘플에 일반화할 수는 없습니다. 너무 복잡하거나 과적합된 모델은 무작위 오류와 진정한 관계를 구분하지 못하게 되어, 분석이 왜곡되고 예측이 잘못될 수 있습니다.
분류(Classification): 데이터를 식별하고 범주를 할당합니다.
곡선 맞춤(Curve Fitting): 데이터를 곡선으로 나타내 변수 간 관계를 연구합니다.
기술 분석(Descriptive Analysis): 추세, 주기, 계절적 변동과 같은 시계열 데이터의 패턴을 식별합니다.
설명 분석(Explanative Analysis): 데이터와 그 관계, 원인과 결과를 이해하려고 시도합니다.
탐색 분석(Exploratory Analysis): 시계열 데이터의 주요 특징을 시각적 형식으로 강조합니다.
예측(Forecasting): 과거 추세에 기반하여 미래 데이터를 예측합니다.
개입 분석(Intervention Analysis): 사건이 데이터에 미치는 영향을 연구합니다.
세분화(Segmentation): 데이터를 세분화하여 원본 정보의 기본 속성을 보여줍니다.
시계열 데이터는 두 가지 주요 범주로 분류될 수 있습니다:
: 특정 시점에서 속성을 측정하는 것으로, 정보의 정적 스냅샷을 제공합니다.
: 일정 기간 동안 속성의 활동을 측정하는 것으로, 총 결과의 일부를 구성합니다.
시계열 데이터에서는 변동이 간헐적으로 발생할 수 있습니다.
: 데이터 내 패턴과 관계를 파악하여 주목할 만한 사건을 식별합니다.
: 일관된 방향으로의 움직임을 결정합니다. 추세에는 결정론적(deterministic)과 확률론적(stochastic) 유형이 있으며, 후자는 무작위적이고 설명하기 어렵습니다.
: 일정한 간격으로 일어나는 사건을 설명합니다.
: 이 단변량 모델은 단일 시간 의존 변수를 이해하고 미래 데이터를 예측하는 데 사용됩니다. ARIMA 모델은 데이터가 정상성(stationary)을 가정하며, 이동 평균, 계절적 차분 연산자, 자기회귀 항을 포함하여 계절성을 설명할 수 있습니다.
: 다중 시간 의존 변수(예: 온도와 습도)를 분석하는 데 사용됩니다.
Holt-Winters 방법: 지수 평활법(Exponential Smoothing)을 사용하는 기법으로, 계절성이 포함된 데이터를 예측할 때 사용됩니다.