[2020 International Journal of Forecasting] DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks

Ruffy·2022년 7월 12일

Paper review

목록 보기

1/21

Abstract

Probabilistic forecasting: 주어진 과거 데이터를 기반으로 미래 시계열 값의 확률 분포 예측

본 논문의 모델은 auto-regressive recurrent network model을 사용하여 정확도 높은 Probabilistic forecasting 방법론을 제안

1. Introduction

이전 예측 모델들 (calassical Box-Jenkins methodology, exponential smoothing techniques, state space models)은 과거의 관측들로부터 독립적으로 추정됨.

하지만, 다음과 같은 문제점들이 있다
1. 시계열의 길이가 서로 다름
2. 크기 분포가 심하게 치우쳐져 있음

분포의 scale-free특성은 속도에 따라 시계열을 하위 그룹으로 나누는 것을 어렵게 함
그룹 기반 정규화 체계는 각 그룹내에서 속도가 크게 다르기 때문에 실패할 수 있음
왜곡된 분포는 입력 표준화 또는 배치 정규화와 같은 일반적으로 사용되는 특정 정규화 기술의 사용을 덜 효과적으로 만듦

따라서 본 논문에서는 autoregressive recurrent networks기반으로 만든 예측모델 DeepAR을 제안함

[Contribution]

(1) 시계열의 크기가 변화하는 경우에 대한 특별한 처리 뿐만 아니라 negative Binomial likelihood를 통합하는 확률적 예측을 위한 RNN Architecture
(2) 이 모델이 다양한 입력 특성에 걸쳐 정확한 확률적 예측을 생성한다는 것을 경험적으로 입증

[Key Advantages]

(1), (2)는 전통적 기법과의 차별점 & (3), (4)는 global method화 하는 것

(1) 주어진 공변량에 대한 계절적 행동과 의존성을 학습함에 따라 복잡하고 그룹 의존적인 요소를 포착하기 위해 최소한의 수동 기능 엔지니어링이 필요함
(2) DeepAR은 모든 하위 범위에 대한 일관된 정량적 추정치를 계산하는데 사용할 수 있는 몬테카를로 샘플의 형태로 확률적 예측을 시행함
(3) 유사한 item에서 학습을 하기 때문에 과거가 없는 item도 예측 가능함
(4) Gaussian noise를 가정하지 않지만, 데이터 통계적 특성에 맞는 다양한 범위의 우도함수를 사용할 수 있음.

=> 이러한 확률적 예측은 위험을 최소화하고 불확실성 아래 최적의 decision을 만듦.

3. Model

과거 데이터 z와 공변량 x가 주어졌을 때, 미래 데이터 z가 나올 조건부 확률을 모델링하는게 목표!
모델 분포가 likelihood의 곱으로 이루어짐
Autoregressive recurrent network의 결과 h에 의해 parameterized됨.
모수 theta가 주어지면, joint samples를 얻을 수 있음.

3.1. Likelihood model

Likelihood는 "noise model"을 결정함
본 논문 실험에서는 2종류의 likelihood를 사용함

Gaussian likelihood for real-valued data
- 평균과 표준편차 사용
- 평균은 output의 affine function으로 나옴
- 표준편차는 softplus activation에 의한 affine transformation을 적용해 얻어짐
Negative-binomial likelihood for positive count data
- 평균과 shape parameter 사용

3.2. Training

위의 log-likelihood 함수를 최대화하는 방향으로 학습 진행

3.3. Scale handling

Autoregressive model이기 때문에 input과 output의 크기를 맞춰야 함
-> input을 input layer에서의 적절한 번위에서 scale하도록 학습하고 ouput에서 이 scaling을 적용한다.
Data imbalancing 때문에 학습 요소를 uniform하게 랜덤으로 뽑는 optimization 절차는 underfitting을 초래한다.
-> non-uniformly하게 샘플링해서 학습함

3.4. Features

본 논문에서 사용한 covariates
- "age" feature: the distance to the first observation in that time series
- day-of-the-week and hour-of-the-day for hourly data, week-of-year for weekly data and month-of-year for monthly data
- a single categorical item feature
모든 covariates를 zero mean and unit variance로 표준화함

4. Applications and Experiments

Figure 4는 불확실성 증가에 대한 그림으로 DeepAR이 불확실성을 더 잘 포착하는 것을 알 수 있음
Figure5는 기간의 길이에 다른 수렴속도로, 정확히 예측할수록 Converage(p)=p에 더 가까움

5. Conclusion

연관된 시계열 데이터로부터 global model 학습 가능
rescaling과 속도기반 샘플링으로 다양한 크기의 데이터 다룰 수 있음
높은 정확도로 교정된 확률 예측을 할 수 있음
seasonality와 uncertainty growth와 같은 복잡한 패턴 학습 가능

Ruffy

to be data scientist

다음 포스트

[2020 International Journal of Forecasting] DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks

Paper review

Abstract

1. Introduction

[Contribution]

[Key Advantages]