CLS 이론에서 영감을 받아 fast and slow learning system 2가지 요소로 구성된 새로운 continual leanring framework인 DualNet을 제안
represenatation learning과 supervised learning을 효율적으로 분리하는 DualNet을 위한 새로운 학습 패러다임을 제안
slow learner는 general representation을 유지하기 위해 background에서 학습되며, 동시에 fast learner는 new knowledge를 빠르게 포착할 수 있는 새로운 adaptation mechanism을 갖추고 있음
기존의 adaptation technique가 다르게, task identifier를 필요로 하지 않음
광범위한 실험을 통해 DualNet의 효과, slow learner의 objective에 대한 robustness, 그리고 계산 자원에 대한 scalability를 입증함
Introduction
인간은 다양한 인지 작업을 수행하기 위해 학습하고 지식을 축적하는 능력을 가지고 있고, 이러한 능력은 서로 연결된 서로 다른 뇌 영역 간의 복잡한 상호 작용으로 이루어짐
유명한 모델 중 하나는 Complementary Learning Systems (CLS) theory인데, 이는 '해마(hippocampus)'와 '신피질(neocortex)'의 두 가지 상호보완적 학습 시스템을 통해 이루어진다고 함
해마는 특정 경험에 대한 패턴 분리 표현의 빠른 학습에 중점을 두고, 신파질은 장기적인 유지와 새로운 경험으로의 일반화를 지원하는 표현을 학습하는 데 초점을 둠
Deep Neural Network가 인상깊은 성과를 냈지만, continual learning scenario에 대해 성능이 좋지 않은 상태에서 많은 양의 I.I.D 데이터에 접근해야 하는 경우가 많음
CLS 이론이 재앙적 망각을 완화하는 것과 지식 전달을 촉진하는 것 사이의 더 나은 절충안을 통해 일반적인 Continual Learning Framework에 어떻게 동기를 부여할 수 있는지 탐구하는 것을 목표로 함
여러 Continual Learning strategies는 CLS 이론 원칙에서 영감을 받았지만, 해마나 신피질을 모델링하기 위해 single backbone 모델을 사용하며, 이는 두 가지 표현 유형을 동일한 네트워크에 결합함
게다가 특정 네트워크는 supervised loss를 최소화하는 것에만 초점을 맞추고, general representation learnng을 보완하는 별도의 구체적인 slow learning componenet가 부족함
continual learning중에 소량의 메모리 데이터에 대해 지도 학습을 반복적으로 수행하여 얻은 표현은 과적합될 수 있으며 작업 전반에 걸쳐 잘 일반화되지 않을 수 있음
이를 해결하기 위해 CLS 이론에서 영감을 받아 DualNet을 제안
두 가지 보완 학습 시스템으로 구성된 새로운 지속 학습 프레임워크로, self-supervised representation을 통해 generic feature를 학습하는 slow learner와 slow learner의 feature를 적응시켜 per-sample based adaptation mechanism을 통해 라벨링된 샘플로부터 빠르게 지식을 얻는 fast learner로 구성
Supervised learning phase에 새로운 라벨이 붙은 샘플이 들어오는 것은 slow learner의 representation을 query하고 조정하여 fast learner가 예측을 하도록 유도
발생한 손실은 두 학습자 모두에게 역전파되어 장기 보존을 위한 현재의 지도 학습 패턴을 통합
slow learner는 항상 메모리 데이터만을 사용하여 SSL 목표를 최소화하여 백그라운드에서 학습하고, 따라서 느리고 빠른 네트워크 학습은 완전히 동기화됨
DualNet은 라벨링된 데이터가 지연되거나 제한되는 실제 시나리오에서도 표현력을 지속적으로 향상시킬 수 있음
Method
Setting and Notations
online continual learning 설정에서 데이터 스트림은 D = {xi,ti,yi} 로 표현되며, 각 인스턴스는 레이블된 샘플 xi,yi과 선택적으로 작업 식별자 ti를 가짐
각 레이블된 데이터 샘플은 task을 나타내는 기본 분포 Pt(X,Y)에서 가져오며, 작업 전환을 나타내는 Pt+1 로 갑자기 변경될 수 있음
작업 식별자 t가 입력으로 제공되면 설정은 multi-head evaluation을 따르며, 해당 분류기만 선택되어 예측을 수행
작업 식별자가 제공되지 않으면 모델은 지금까지 관찰된 모든 클래스에 대해 공유 분류기를 가지며, single-head evaluation을 따름
일반적인 지속 학습 전략은 에피소드 메모리 을 M 사용하여 관찰된 데이터의 하위 집합을 저장하고 현재 샘플을 학습할 때 이를 상호배치하는 것
M에서, 랜덤하게 샘플링된 미니배치를 M으로 표시하고, M의 두 가지 뷰를 MA,MB로 표시하며, 이는 두 가지 다른 데이터 변환을 적용하여 얻음
input data로부터 general representation을 학습하는 slow network의 파라미터는 ϕ로, transformation coefficients를 배우는 fast network의 파라미터는 θ임.
Architecture
DualNet은 작업 레이블에 독립적인 데이터 표현을 학습하여 지속적인 학습 시나리오에서 작업 전반에 걸쳐 더 나은 일반화 기능을 제공
2가지 main learning modules로 구성
slow learner는 general, task-agnostic한 표현을 학습
fast learner는 라벨링된 데이터를 사용하여 새로운 정보를 빠르게 포착한 다음 지식을 slow learner에 통합
2개의 synchronous phases로 구성
slow learner가 episodic memory M의 레이블이 없는 데이터를 사용하여 SSL objective를 최적화하는 Self-superveised learning phase
레이블이 지정된 샘플이 도착할 때마다 발생하며, fast learner가 slow learner의 표현을 쿼리하고 이 샘플을 학습하도록 조정하는 supervised learning phase
fast learner의 adaptation은 샘플별로 이루어지며 작업 식별자와 같은 추가 정보가 필요하지 않음
DualNet은 샘플과 라벨을 저장하는 다른 방법들과 동일한 에피소드 메모리를 사용하지만, slow learner는 sample만 필요로 하고 fast learner는 sample과 label을 모두 사용
The Slow Learner
SSL loss LSSL를 최적화하기 위해 훈련된 standard backbone network ϕ로, 일반적인 표현을 보장하면서 추가적인 computational resources를 최소화하기 위헤 오직 SSL 손실만 고려
MoCo처럼 추가 메모리 유닛이 필요하지 않음
BYOL처럼 항상 네트워크의 추가 복사본을 유지하지 않아도 됨
JIGEN과 같은 수작업 기반 손실을 사용하지 않음
최소한의 계산 오버헤드로 유망한 결과를 달성한 최신 SSL 방법인 Barlow Twins를 고려
메모리에서 샘플링된 이미지 M 배치에 두 가지 다른 데이터 변환을 적용하여 얻은 두 가지 뷰 MA,MB가 필요
증강된 데이터는 네트워크 ϕ를 거쳐 SSL의 표준 관행을 따라 느린 네트워크의 마지막 레이어 위에 projector를 사용하여 두 표현 ZA,ZB를 얻음