시계열 데이터 (Time series)

김수아·2023년 4월 3일

시계열분석

목록 보기
1/2

시계열 분석이란?
: 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하기 위한 노력으로, 시간 순서대로 측정된 자료라 할지라도 서로 독립인 자료는 시계열 분석법에 해당되지 않는다.
: 즉, 시계열은 시간의 순서에 따라 기록된 일련의 데이터 점들로, 같은 대상에서 나온 값이여야 하며 대부분의 경우 연속된 동일한 시간 간격에서 측정된 수열이다.

시계열 데이터의 특성
1) 추세성 (trend)
: 장기적으로 증가하거나, 감소하는 경향성이 존재하는 것
ex) 주가가 오르락 내리락 하는 것
2) 계절성 (seasonality)
: 계절적 요인의 영향을 받아, 1년 혹은 일정 기간 안에 반복적으로 나타나는 패턴
ex) 요일별, 국가별 휴일 또는 사업적인 특성
3) 랜덤성 (randomness)
: 더이상 분해가 안 되는 것으로, 예측 불가능한 임의의 변동

Time series Decomposition (시계열 분해)

: 시계열 분해는 두 종류가 존재
⇨ 가법모형 (addivity model)
: y = trend + seasonality + noise (각 성분이 덧셈을 통해 연결, 독립적이라고 가정)
⇨ 승법모형 (multiplicative model)
: y = trend x seasonality x noise (각 성분이 곱셈을 통해 연결)
R의 decompose() 함수는 이동평균을 이용하여 시계열을 3개의 성분 (계절, 추세, 랜덤 성분)으로 분해

이동평균 (Moving averages) 에 의한 고전적인 계절 시계열 분해
: 특정 기간(k) 내의 시계열 평균을 계산하는 방법으로, k는 평균을 산출하기 위해 사용되는 관측값의 개수로, 홀수여야 한다.
: 데이터 양 끝의 (k-1)/2개의 관측값이 계산에서 제외됨
ex) 13개월의 이동 평균이라면 앞뒤 6개월의 결측치가 발생

= 'residual'의 경우 trend+seasonal의 값과 observed 값의 차이
단점? trend와 residual의 처음과 일부 값을 얻을 수 없음

STL (Seasonal and Trend decomposition using Loess)
: Loess를 이용하여 시계열을 계절정, 추세, 불규칙성 구성요소로 분해
: trend와 seasonal effect를 동시에 예측 가능
: 다른 분해법에 비해 적용하기 간단하고, 매우 묘사적이며 빠르다

단순지수평활 (simple exponential smoothing, SES)
: 시점 t까지의 관측치 {y1, y2, ..., yt}가 중질 때, 미래값 y(h+t)를 예측하고자 하는 것으로, 추세 또는 계절성이 없는 데이터 예측에 적합하다.
-> 지수가중이동평균 (exponentially weighted moving average, EWMA)

: α는 평활모수로, α가 1에 가까우면 평활이 작고 yt (최근 데이터)에 근사하며, α가 0에 가까우면 평활이 크고, 과거 데이터에 가까움
: 0과 1 사이의 어떤 α에 대해, 관측값에 붙는 가중치는 과거로 갈수록 지수적으로 감소 -> α값이 작을수록 더작은 시간에 따른 변화로 이어질 것이고, 적합값의 시계열은 매끄러워짐
: 시점 t에서 미래 시점에 대한 예측은 시점 t에서의 추정된 평균을 사용

Holt-Winter's 방법
: 추세와 계절성을 가지는 시계열의 예측에 주로 사용되며, 지수가중이동평균 (EWMA)을 이용하여 계절 조정된 평균 (수준-level), 추세, 계절효과의 추정지를 갱신함
: 추세와 계절성을 반영하므로 기간에 따른 값이 달라짐 (지수평활과의 차이점)

-> 가법 (additive) Holt-Winter's 예측함수
: 계절성 변동이 시계열 전반에 걸쳐 거의 일정할 때 사용

-> 승법 (multiplicative) Holt-Winter's 예측함수
: 계절성 변동이 시계열의 수준에 비례하게 변할 때 사용

: 학습 데이터에 대한 모델 평가는 RMSE, MAE, MAPE 등의 값을 고려해 비교

0개의 댓글