-
시계열 데이터는 오래된 패턴이 다시 등장할 수 있으며, 학습 성과를 향상시키기 위해 past action을 활용하는 것이 필수적임
-
FSNet은 FSNet은 각 레이어의 어댑터를 통해 학습 과정에서 얻은, repeating event를 학습하는 데 유용하다고 주장하는 계수 u를 사용하여 패턴에 적응
- u는 과거의 특정 패턴에 어떻게 적응했는지를 나타내며, 적절한 u를 저장하고 검색하는 것은 나중에 해당 패턴이 다시 나타날 때 학습에 도움이 될 수 있음
-
따라서 FSNet의 두 번째 핵심 요소로서 associative memory Ml를 활용하여 과거에 나타났던 반복 패턴에 대한 adaptation coefficient u를 저장
-
Sparse Adapter-Memory Interaction
-
The Adapter-Memory Interacting Mechansim
- 현재의 적응 계수가 일부 샘플에 걸쳐 있을 수 있는 전체 이벤트를 포착하지 못할 수 있으므로 현재 패턴을 완전히 포착하기 위해 adaptation coefficient의 EMA(coefficient γ′ 포함)를 사용하여 memory read write operation을 수행
- 메모리 읽기: 메모리 상호작용이 트리거되면 어댑터는 memory item에 대한 weighted sum인 attention read operation을 통해 과거에 가장 유사한 transformation을 쿼리하고 검색
1.2.3.Attention calculation:rl=softmax(Mlu^l);Top-k selection:rl(k)=TopK(rl);Retrieval:u~l=i=1∑Krl(k)[i]Ml[i],
- rl(k)[i] = rl(k)의 i번째 element
- Ml[i] = M의 i번째 row
- 메모리가 conflicting pattern을 저장할 수 있기 때문에, 우리는 k = 2로 고정된 상위 k개의 가장 관련성 있는 메모리 항목을 검색하여 sparse attention을 사용
- 검색된 adaptation coefficient는 과거의 현재 패턴에 적응하는 데 있어 오래된 경험을 특징짓는 것으로, ul←τul+(1−τ)u~t와 같이 현재 매개변수를 weighted sum하여 현재 학습을 개선할 수 있음
- 메모리 쓰기: 현재 학습에서 얻은 변환 계수를 outer product 연산을 사용하여 새로운 정보를 가장 관련성이 높은 메모리 위치에 효율적으로 저장
Ml←τMl+(1−τ)u^l⊗rl(k)andMl←max(1,∥Ml∥2)Ml,
- ⊗ = outer-product operator로, 이를 통해 가장 관련성 있는 위치에 새로운 지식을 효율적으로 작성 가능
- memory는 기하급수적으로 증가하는 값을 피하기 위해 정규화