위와 같은 시계열 데이터(호주 당뇨병 치료약 월별 sales데이터)가 있다고 가정해보자. 시계열 데이터를 공부할때면 항상 초반에 데이터를 분해하는 내용을 다루고 있는데 왜 그러는것일까??
다시한번 위에 있는 그래프를 보면 판매 퍼포먼스가 등락을 반복한 끝에 2008년기준으로 2000년 보다 더 좋은 퍼포먼스를 내고 있다.
라고 해석하면 정확하지 않은 해석이다. 결론적으로 2008년이 2000년보다는 좋은 퍼포먼스를 가지고 있는것은 맞지만 등락을 반복한다는 점이 올바르지 않다. 나중에 더 자세히 나오지만 계속해서 상승하는 추세에 있기때문에 계절적요인 + 추세를 하게되면 전년 같은 달(month) 대비 상승을 항상 하고 있는 모습이다. 라고 말하는것이 옳은것이다.
이를 이해하기 위해서 시계열 데이터 분해가 필요한 것 같다.
계절성(Seasonality)과 주기성(Cycle) 구분하기
1. 일정한 빈도로 나타나지 않는 패턴은 주기성(cycle)이다.
2. 빈도가 변하지 않고 연중 특정 시기와 연관되어 있다면 계절성이다.
3. 대체적으로, 주기들의 평균길이는 계절성 패턴의 길이 보다 길고, cycle의 크기는 seasonality의 크기보다 좀 더 변동성이 큰 경향이 있다.
4. 예를들어 금융위기의 경우 특정 기간마다 일어나는 것도 아니며, 고정된 빈도또한 가지고 있지않으며, 다음 주기까지의 길이 또한 일정하지않다. 따라서 이것은 주기성(cycle)로 분류된다.
5. 반면, 우산의 판매량의 경우 여름, 특히 장마기간과 가까운 시즌에 많이 팔리며, 이것은 매해 비슷하게 일어나는 계절성 패턴이다.
6. 많은 시계열 데이터에는 추세(trend), 계절성(seasonality), 주기(cycle)가 있다. 이후 예측 기법을 고를때는 데이터가 가지고 잇는 시계열 패턴을 살펴보고, 적절하게 패턴을 잡아 낼 수 있는 기법을 선택 해야한다.
아래는 처음에 보여드린 그래프와 같은 그래프입니다.
분해하기전과 분해 후 어떻게 인사이트를 다르게 가져갈 수 있는지 확인해 보겠습니다.
계절성 성질만 따로 가져와 보았습니다. 어떤 특징이 보이시나요??
바로 매년 연초에 떨어지고 연말에 판매가 상승하는것을 볼 수 있습니다.
이는 연말이 되면 판매량이 높아진다는 것을 의미하고 매년 반복되는 계절성을 보여줍니다.
이번에는 추세 즉, 트랜드만 따로 뽑아 보았습니다.
분해하기전 데이터를 살펴보았을때는 분명 등락을 반복하는듯 했지만
추세만 뽑아보면 꾸준히 상승한다는 것을 알 수 있습니다.
분해를 해봐야 하는 이유입니다.
앞서 설명하지 않은 시계열 데이터에서 볼 수 있는 요소중 하나인 불규칙 요소 가 있습니다. 이는 설명될 수 없는 요인 또는 돌발적 요인에 의해서 일어난 변화를 뜻하며, 예측 불가능한 변동을 의미합니다.
시계열 데이터 분해에서는 원래 데이터(관측데이터)에서 추세(trend), 순환(cycle), 계절성(seasonality)을 뺀 나머지를 불규칙 요소라고 한다.
위에 그래프를 보면 대부분 어느정도의 불규칙 요소들이 존재한다.(당연하게도 여러가지 외부 요인이
항상 존재하기 때문이다.) 하지만 불규칙 요소 데이터를 따로 빼서 확인함으로서 가장 변동이
크게 나타나는 2006년에서 2008년에 어떠한 외부적으로 큰 이슈가 있었음을 생각해 볼 수 있고
이를 찾아보면서 인사이트를 얻을 수 있다.
(개인적으로 금융위기 시즌의 영향이 있을 수도 있겠다 라는 생각을 했다.)
이번에는 관측값(observed, 원본데이터) 과 추세(trend)
그리고 계절성에 추세를 더한 그래프 세개를 그려보았습니다.
추세와 계절성을 더하고 여기에 불규칙 요소를 더하게되면 관찰값이
나오는데 위의 그림처럼 불규칙 요소를 제외하고 더한값을
그리고 관측값과 비교해보면 불규칙 요소에 대해 인사이트를 얻어 볼 수 있습니다.
위와 같이 막대그래프로 불규칙 요소만 빼서 시각화 하는것도 관측할 수 있는 방법중 하나입니다.
이글의 맨위에서 우리는 증감을 반복한다라고 이야기 했었지만, 계절적인 요인만 있었을 뿐 추세는 지속적으로 상승하고 있음을 보여주고 있으며 이는 1년전 같은 달 대비 추세만큼 증가를 했지만 계절적인 요인에 의해 상대적으로 상승이 적은것이다. 그리고, 2006년부터 2008년사이에는 어떠한 불규칙 요인에 의해 조금 어긋난 모습을 보이는것을 알 수 있었습니다. 따라서 시계열 데이터는 분리하여 살펴보는것 또한 중요하다는것을 알 수 있습니다.
다음 글에서 이렇게 간단하게 분해하는 방법을 코드로 보여드리겠습니다.