[논문 리뷰] Domain Adaptation for Time Series Forecasting via Attention Sharing

‍이진혁[ 대학원석·박사통합과정재학 / 산업경영공학과 ]·2023년 1월 9일

Domain adaptation seminar transfer learning

Transfer learning Seminar

목록 보기

1/3

Motivation

최근 딥러닝을 활용한 시계열 예측에 관한 연구가 활발히 진행되고 있다. 이러한 연구의 이점은 충분한 양의 데이터가 있는 경우에만 나타나기 시작하기 때문에 이는 시계열 또는 시계열당 관측치 수가 제한되어 있는 일반적인 예측 문제에 대한 Challenge가 있음을 뜻한다. 이를 해결하기 위해 등장한 방법론이 Domain Adaptation이며, 이 방법론을 시계열에 적용하기 위해서는 두가지 문제를 해결해야 하는데 첫번째는 시계열 내에서 진화하는 패턴을 보이는 시계열의 시간적 특성 문제이고, 두번째는 도메인별로 Output space의 차이가 발생하는 문제이다. 저자는 이러한 문제들을 해결하기 위해 Attention-based Domain adaptation 방법론을 제안한다.

Contribution

Shared attention module을 통해 소스 및 대상 도메인에 대한 Multi-horizon 예측을 하기 위해 도메인 불변 및 도메인별 특징을 적절하게 유도하고 결합하는 새로운 아키텍처를 제안하며 적대적 훈련과 함께 Multi-horizon 예측 작업에 특화된 최초의 end-to-end Domain adaptation 방법론을 제안함.
Cold start 및 Few-shot 예측 문제를 해결하는 광범위한 합성 및 실제 실험을 통해 DAF가 데이터 부족 대상 도메인에서 정확도 측면에서 단일 도메인 예측 및 Domain adaptation Baseline을 능가한다.
우리는 Discriminator에 의해 유도된 도메인 불변 기능과 DAF 모델에서 재교육된 도메인 특정 기능의 중요성을 보여주기 위해 광범위한 Ablation studies를 수행하며, Discriminator를 포함하여 설계된 공유 전략이 다른 잠재적 변형보다 더 나은 성능을 제공한다는 것을 보여준다.

Proposed method

Domain Adaptaion Forecaster(DAF)

Sequence Generator를 사용하여 각 Domain의 시계열을 처리한다.
각 Sequence Generator는 Encoder, Attention module 및 Decoder로 구성된다. 각 Domain은 서로 다른 공간에서 서로 다른 패턴의 데이터를 제공하기 때문에 Source domain과 Target domain은 개별적인 Encoder와 Decoder를 가지며 Attention module은 두 Domain이 공유한다.
Forecasting을 수행하는 것 이외에도 Generator는 학습된 Representation의 효과를 더욱 보장하기 위해 입력을 재구성한다.

Sequence Generators

각 Domain의 Generator는 입력 시계열을 처리하고 재구성된 Sequence와 예측된 미래 값을 생성한다.

Private Encoders

Input X를 Pattern embedding P와 Value embedding V로 변환하는 작업을 수행하며 P와 V의 Dimension은 동일하게 유지된다. 추출된 P와 V는 Shared attention module의 Input으로 활용한다.

Shared Attention Module

Source Domain과 Target Domain에서 각각 추출된 Pattern embedding P에 의해 도메인 불변 Query Q와 Key K를 생성한다.
도메인 불변을 목적으로 함으로 Attention module은 Source와 Target Domain 두개의 Domain에서 공유된다.

그림과 같이 Pattern embedding P는 Shared Attention module에 들어가 Q와 K를 만들고 Q와 K는 원본 시계열을 재구성하는 Task와 예측하는 Task에 활용된다. Value embedding V 또한 두개의 Task에 모두 활용된다.

Interpolation: Input Reconstruction

다른 시점의 관측치를 사용하여 zt를 보간하여 입력을 재구성한다.

Extrapolation: Future Predictions

DAF는 Autoregressive하기 때문에 한 단계 앞서 예측을 생성한다. 각 단계에서, 주어진 과거 값에서 Extrapolation하여 다음 값을 예측한다.

Private Decoders

Decoder에서는 또 다른 position-wise MLP를 통해 예측값을 생성한다. 이 값을 사용하여 해당 시점의 원본 시계열을 재구성하고 다음 시점의 시계열을 예측한다. 이렇게 이전 예측을 재귀적으로 공급하여 다음 시점의 예측값을 생성한다.

Domain Discriminator

Attention module의 Query와 Key가 Domain invariant가 되도록 유도하기 위해 저자는 Domain Discriminator를 도입한다. 이 Discriminator는 주어진 Query와 Key의 출처를 인식하는 기능을 수행한다.

Adversarial Training

Discriminator가 Source와 Target Domain을 분류하려고 하는 동안 Generator는 Discriminator를 속이도록 훈련된다. 이 결과 Domain invariant한 특성을 지니는 예측값을 생성할 수 있다.

Conclusion

본 논문에서는 데이터 부족 문제를 해결하기 위해 Time series forecasting에 Domain adaptation을 적용하는 것을 목표로 하며 제안한 모델(DAF)을 통해 예측 성능과 Domain adaptation을 높은 수준으로 달성하는 것을 실험적으로 입증했다. 그러나 저자는 이러한 Empirical evidence에도 불구하고 Attention module 내에 Domain-invariant 특징을 갖는 것에 대한 이론적 정당성은 여전히 과제로 남아있다는 것을 지적한다. 또한, Univariate time series가 아닌 Multivariate time series forecasting 실험으로의 확장은 남아있는 Future work라고 언급하면서 논문을 마친다.

‍이진혁[ 대학원석·박사통합과정재학 / 산업경영공학과 ]

Researcher

다음 포스트