written by Hanul Shin, Jung Kwon Lee, Jaehong Kim, and Jiwon Kim
인간과 large primates의 distinctive ablility 중 하나는 새로운 스킬을 continually하게 배우고 그 지식을 평생동안 축적해나간다는 것.
이러한 유연한 기억 시스템은 시냄스 가소성과 안정성 간의 균형으로 이룰 수 있음
반면, DNN의 지속적 학습은 '파국적 망각'이라는 현상에 시달림. 이는 새로운 작업을 학습할 때, 모델의 성능이 이전에 학습한 작업에서 급격히 저하되는 현상임. 인공 신경망에서는 입력과 출력이 암시적 파라메트릭 표현으로 일치하므로 새로운 목표를 향해 학습시키면 이전 지식을 거의 완전히 잊어버리게 됨. 이러한 문제는 심층 신경망의 연속적 학습의 주요 장애물로 작용함
이를 완화하려는 이전의 시도들은 종종 과거의 데이터를 저장하는 에피소드 기억 시스템에 의존함. 이러한 방식으로 학습된 네트워크는 각각의 작업만을 학습한 별도의 네트워크만큼 잘 작동하지만, 과거의 입력을 저장하고 재생하기 위해 큰 작업 메모리가 필요하다는 단점 지님. 더하여, 일부 실제 상황에서는 실행이 불가능할 수 있음
보완 학습 시스템(CLS) 이론은 해마와 신피질을 포함하는 이중 기억 시스템의 중요성을 설명함. 해마 시스템은 최근의 경험을 빠르게 인코딩하고, 짧은 기간 동안 지속되는 기억 흔적은 수면 중 또는 의식적, 무의식적 회상 중 재활성화 됨. 이런 기억은 인코딩된 경험의 여러 번의 재생과 동기화된 활성화를 통해 신피질에 통합됨. 이러한 메커니즘을 강화 학습 에이전트를 훈련시키는 데에 사용
본 논문에서는 과거의 데이터를 참조하지 않고 심층 신경망을 순차적으로 훈련하는 대안 접근법을 제안함. 생성된 가상 데이터를 동시에 재생하여 이전에 획득한 지식을 유지하도록 함. 특히, 과거 데이터를 모방하기 위해 생성적 적대 신경망(GAN) 프레임워크에서 딥 생성 모델을 훈련함. 생성된 데이터는 이전 작업 해결자의 응답과 함께 페어링되어 과거 작업을 나타냄. 학자 모델이라 불리는 생성기-해결사 페어는 가상 데이터와 원하는 목표 페어를 필요에 따라 생성할 수 있으며, 새로운 작업이 주어지면 이러한 생성된 페어가 새로운 데이터와 혼합되어 생성기와 해결사 네트워크를 업데이트 함. 따라서 학자 모델은 자신의 지식을 잊지 않고 새로운 작업을 학습할 수 있으며, 네트워크 구성이 다를 때에도 생성된 입력-목표 페어로 다른 모델을 교육할 수 있음
'catastrophic forgetting' or 'catastrophic interference'로 불리는 용어는 1980년대 처음 소개됨.
이는 신경망의 근본적인 한계이며 높은 일반화 능력의 단점. 원인은 분석적으로 연구되지는 않았지만, 신경망이 입력의 내부 특징을 매개하고, 새로운 샘플을 학습하는 과정에서 이미 확립된 표현이 변경된다고 알려져 있음.
문제를 해결하기 위한 연구 중 일부는 이전 데이터에 접근할 수 있는 상황에서 네트워크 파라미터를 최적화하고 이미 통합된 가중치에 대한 변경을 최소화하는 데 중점을 둠.
dropout과 L2 regularization과 같은 regularization 방법이 새로운 학습의 간섭을 줄이는 데 도움된다고 제안됨
Elastic Weight Consolidation(EWC) 방법은 이전 작업에 중요한 가중치를 보호하여 성능 저하를 줄이는 방법을 보여줌
다른 시도는 여러 작업을 해결할 수 있는 심층 신경망을 순차적으로 훈련시키는 것. 이 경우 입력에 가까운 층은 보편적 특징을 캡쳐하기 위해 공유되고, 독립적인 출력 층은 작업별 출력을 생성함
최근 제안된 Learning without Forgetting(LwF) 방법은 이미지 분류 작업에서 순차 학습 문제를 해결하면서 공유 네트워크 파라미터의 변경을 최소화함
이전 작업에 대한 훈련 데이터에 접근할 수 없을 때, 메모리 네트워크가 생성한 가짜 입력과 가짜 타겟을 작업 네트워크에 제공하는 방법인 의사 리허설(pseudorehearsal) 기술이 사용됨.
실제 데이터에 접근하지 ㅇ낳고도 이전 입력-출력 패턴을 유지할 수 있다고 주장됨. 최근 연구는 해마 구조를 모방한 아키텍처를 제안하여 복잡한 데이터의 지속적인 학습을 가능하게 함
본 논문의 생성적 재생 프레임워크는 학습된 과거 입력 분포에서 생성된 가짜 입력을 사용하여 이전의 의사 리허설 기술과 다름. 생성적 재생은 생성기가 입력 분포를 복구하는 한, 네트워크가 생성된 과거 데이터와 실제 현재 데이터를 함께 최적화하기 때문에 실제 데이터를 누적하여 공동 학습하는 것과 동등한 성능을 보임.
관찰 가능한 샘플을 생성하는 모델을 의미
VAE와 GAN과 같은 일부 딥 생성 모델은 이미지와 같은 복잡한 샘플을 모방할 수 있음.
GAN framework는 generator(G)와 discriminator(D)간의 제로섬 게임을 정의함.
판별기가 두 데이터 분포를 비교하여 생성된 샘플과 실제 샘플을 구분하는 동안, 생성기는 실제 분포를 최대한 가깝게 모방하도록 학습함
Continual learning framework에서 해결해야 할 작업 시퀀스는
으로 정의
T_i는 데이터 분포 D_i에서 추출한 훈련 예제(x_i, y_i)를 사용해 모델을 목표로 최적화하는 것을 의미.
다음으로, 우리는 우리의 모델을 학자(scholar)로 정의. 학자는 새로운 작업을 학습하고 그 지식을 다른 네트워크에 가르칠 수 있는 모델.
학자 H는 생성 모델 G와 작업 해결 모델 S로 구성된 튜플 hG, S_i임. 해결자는 작업 시퀀스 T의 모든 작업을 수행해야 함. 전체 목표는 모든 작업의 손실의 비편향 합을 최소화하는 것. 모델은 작업 T_i에 대해 훈련할 때, 데이터 분포 D_i에서 추출한 샘플로 훈련됨
generator는 replayed 된 input data를 생성하고, solver는 real data + generated input 두종류의 데이터를 사용하여 모델을 학습, 이런 generator와 solver를 합친 것을 scholar 모델이라 부른다고 보면 됨
single scholar model이 가장 최근의 copy of the network를 참조해 학습하는 것은 N번째 scholar가 현재 태스크와 이전 scholar의 지식을 학습하는 과정을 의미하는 sequence of scholar models를 학습하는 것과 같음
다른 scholar로부터 온 scholar 모델을 학습하는 것은 generator와 solver를 학습시키는 두 가지의 독립적 절차를 거침
1. 새로운 generator는 현재 task의 input x와 이전 task로 replay된 input x를 전송받음
실제 샘플과 재생 샘플은 원하는 중요도에 따라 비율로 혼합됨
2. 생성기는 누적 입력 공간을 재구성하고, 새로운 해결자는 실제 데이터와 재생된 데이터의 혼합에서 입력과 타겟을 결합하도록 훈련됨
재생된 타겟 == 재생된 입력에 대한 이전 해결자의 응답
본 논문에서는 적절한 아키텍처를 가진 해결자와 생성적 적대 신경망(GAN) 프레임워크에서 훈련된 생성기로 학자 모델을 구성하지만, 프레임워크는 생성기로 어떤 딥 생성 모델도 사용할 수 있음
MNIST 손글씨 숫자 데이터베이스를 분류하는 모델 테스트
학자 모델의 시퀀스는 이전 학자로부터 생성적 재생을 통해 처음부터 훈련됨.
학자 모델이 정보를 잃지 않고 지식을 전이함을 관찰
본 논문에서는 가짜 데이터를 생성해 순차적 학습을 가능하게 하여 여러 작업 간 지식 전이를 가능케 하는 Deep generative replay framework에 대하여 소개함. 이는 EWC나 LwF와 달리 성능 균형을 쉽게 맞추고 유연한 지식 전이를 제공하지만, 생성기의 품질에 따라 성능이 좌우될 수 있음
향후 연구는 강화 학습이나 the form of continuously evolving network로 확장될 수 있음