😎 Abstract
- 시계열 예측 모델의 효과는 충분한 양의 데이터가 있는 경우에만 나타남.
- 따라서 데이터 부족 문제에 대처하기 위해 새로운 Domain Adaptation 프레임워크인 DAF(Domain Adaptation Forecast)를 제안함.
- DAF는 풍부한 데이터 샘플(Source)이 있는 관련 도메인의 통계적 강점을 활용하여 제한된 데이터(Target)로 관심 영역의 성능을 향상시킴.
- Attention기반 공유 모듈과 개별 도메인에 대한 개인 모듈 사용함.
- Source domain과 Target domain에 대한 Predictor의 공동 훈련을 가능하게 하기 위해 도메인 불변 잠재 기능 (Query&Key)과 도메인별 기능(Value)을 동시에 재교육함.
1. Introduction
- 도메인 적응(DA) 방법은 소스 도메인과 대상 도메인 간에 추출된 기능을 정렬하여 도메인 이동의 유해한 영향을 완화하려고 함.
[2가지 Challenges]
- 시계열의 시간적 특성으로 인해 시계열 내에서 진화하는 패턴은 전체 흐름 표현에 의해 포착되지 않을 것임.
- 미래의 예측은 서로 다른 기간 내의 로컬 패턴에 따라 달라질 수 있으며, 일련의 로컬 표현은 대부분의 기존 접근 방식에서 수행한 것처럼 전체 흐름을 사용하는 것보다 더 적절할 수 있음.
- 예측 작업의 출력 공간은 일반적으로 도메인에 따라 고정되지 않는데, 이는 예를 들어, 전기 소스 데이터의 kW 대 스톡 대상 데이터의 단위 수와 같은 도메인 종속적인 시계열을 생성하기 때문임.
- 각 도메인의 데이터 분포가 적절하게 근사되도록 도메인 종속 속성을 모델링하기 위해 도메인 불변 및 도메인별 특성을 추출하고 예측에 통합해야 함.
-> 즉, 서로 다른 도메인에서 공유하거나 공유하지 않을 기능 유형을 신중하게 설계하고 시계열 예측 모델에 적합한 아키텍처를 선택해야 함.
[Attention 활용 이유]
-
진화하는 패턴의 경우, Attention은 시간 의존 쿼리 키 정렬에 의해 가중치가 부여된 값의 조합을 기반으로 동적 예측을 할 수 있음.
-
Attention 정렬이 특정 패턴과 독립적이기 때문에 Q와 K는 도메인 불변으로 유도되는 반면, V은 모델이 도메인 의존적 예측을 하기 위해 도메인별로 유지될 수 있음.
<Sine 신호가 있는 합성 데이터 세트에 대한 기존의 주의 기반 예측기(AtF)와 도메인 적응 전략(DAF)이 결합된 대응기 사이의 비교 예시>
[제안하는 방법]
1. Shared Attention Module을 통해 Source/Target에 대한 multi-horizon 예측을 하기 위해 domain-invariant/specific 기능을 적절하게 사용.
2. Cold-Start 및 Few-Shot 예측 문제를 해결하는 광범위한 합성 및 실제 실험을 통해 DAF가 데이터 부족 대상 도메인에서 높은 성능을 보임.
3. Discriminator에 의해 유도된 domain-invariant 기능과 DAF 모델에서 재교육된 domain-specific 기능의 중요성을 보여줌.
3. Domain Adaptation in Forecasting
Time Series Forecasting
Adversarial Domain Adaptation in Forecasting
: 원하는 target prediction을 계산하기 위해, min-max problem 사용
[생성자 G를 통해 판별자 D의 estimation error]
[Domain Classification Error]
4. The Domain Adaptation Forecaster (DAF)
4_1. Sequence Generators
Private Encoders
Shared Attention Module
1. MLP가 두 도메인 중 하나의 Pattern 및 value 임베딩을 처리함.
2. kernel function이 pattern embedding을 shared latent space로 인코딩함.
3. reconstruction을 위해 interpolation 사용하고, forecast를 위해 extrapolation 사용함.
- z1,z2,z3,...,zT−2,zT을 사용해 zT−1을 추정함.
- zT−s+1,zT−s+2,...,zT을 사용해 zT+1을 추정함.
Private Decoders
- Position-wise MLP: zt=MLP(ot;θd)를 활용
- 이를 통해 reconstruction 값과 one-step prediction 값을 내놓음.
- Prediction 값은 다시 다음 step을 예측하기 위해 encoder와 attention model로 들어감.
4.2. Domain Discriminator
- 모든 과정은 source와 target domain 각각에서 계산됨.
4.3. Adversarial Training
"Generator G"
- Source domain의 generator와 Target domain의 generator는 private encoder/decoder와 shared attention module로 구성됨.
"Discriminator D"
- domain에 걸쳐 latent features keys K와 queries Q의 invariance를 유도하는 역할
"Adversarial Training"
- D는 source와 target 사이의 domain을 분류하기 위해 힘쓰지만, GS와 GT는 D를 혼란시키기 위해 힘씀.
5. Experiments
실험 #1
Single domain forecasts only on the target domain
Cross domain forecasts both source and target doamin
실험 #2
cold-start forecasting
: 신호가 상당히 짧고 미래 예측에 제한된 과거 정보를 사용할 수 있는 대상 도메인에서 예측하는 것을 목표로 함.
few-shot forecasting
: 잘 훈련된 예측자에 대해 대상 도메인에 시계열의 수가 부족할 때 발생함.
실험 결과
- Source 및 Target 데이터를 모두 사용하여 end-to-end로 공동으로 훈련된 교차 도메인 예측기 RDA 및 DAF가 단일 도메인 예측기보다 전반적으로 더 정확하다는 것을 알 수 있음.
- 교차 도메인 예측자 중 DATSING은 RDA와 DAF가 능가하여 두 도메인 모두에서 공동 훈련의 중요성을 보여줌.
- 대부분의 실험에서 우리의 주의 기반 DAF 모델은 RNN 기반 DA(RDA) 방법보다 정확하거나 경쟁력이 있음.
- 마지막으로, 아래 그림을 통해 훈련 샘플의 수가 줄어들수록 DAF가 더 크게 개선된다는 것을 알 수 있음.