기존의 Continual learning은 두가지 Task 사이에서 수행되거나, 용량, 시간 등이 여유로운 상황에서의 학습이 수행되었다. 하지만, Real-world에서는 제한된 환경에서 여러가지 Task가 계속해서 주어지는 상황을 커버해야 한다.
따라서, 본 논문에서는 이전 Task들에 대해 Model이 전부 기억하려고 하기보다는 덜 중요한 정보는 잊고 중요한 정보는 보존하는 방식을 제안한다. 즉, Network의 parameter weight들의 Importance를 계산하고 계산된 중요도를 기반으로 Regularization term을 통해 중요한 Weight의 갱신을 방지한다.
Importance weight는 network의 parameter 변화에 대한 학습된 function의 민감도를 나타낸 것으로 모든 data point에서 parameter에 대한 Output function의 변화량의 평균을 뜻한다. 즉, network의 parameter가 변할 때 learned function 대비 Output function이 크게 변하면 해당 parameter에 높은 중요도를 부여한다.
Importance weight를 계산할 때, output function이 multi-dimension인 경우 계산해야 하는 Gradient가 많아지게 되므로 learned function의 output에 L2 norm을 취하여 n(length of output vector)배 빠른 계산을 수행하게 한다.