Continual evaluation for lifelong learning: Identifying the stability gap

jihyelee·2023년 2월 19일

continual-learning

목록 보기

14/16

연속학습 (Continual Learning, Lifelong Learning)

연속적으로 새로운 class, domain, 혹은 task를 학습하는 문제
- 분야에 따라 class-incremental, domain-incremental, task-incremental로 분류되기도 함
Stability-Plasticity tradeoff (안정성-적응성 균형)
- Stability(안정성): 이전에 학습한 데이터 분포에서 얻은 지식을 유지하는 것, 이전의 지식을 까먹을 경우 catastrophic forgetting이 발생
- Plasticity(적응성): 현재 데이터 분포를 잘 학습하는 것
- 둘 사이에는 tradeoff 발생
Methods
- memory-based (experience replay): 메모리에 학습한 샘플의 일부를 저장, 이후 학습 시 재사용
- regularization-based: L2 norm 등을 이용한 정규화 이용 (model-prior based라고 불리기도 함)
- architecture-based: adapter와 같이 특정 태스크를 위한 파라미터를 모델에 추가

연속학습에서 새로운 태스크를 배우기 시작할 때 기존 태스크의 성능이 일시적으로 크게 떨어지며 (substantial forgetting) 이후 성능이 다시 회복되는 현상
연속학습 방법들 중에서 memory-based, regularization-based, distillation 등의 방식에서 Stability Gap이 발생 (architecture-based에서는 발생 X)

Stability Gap을 측정하기 위한 새로운 프레임워크
- evaluation periodicity: 연속학습을 위한 평가의 인터벌, 기존의 평가들은 task의 학습이 끝나고 진행되었으나 continual evaluation에서는 iteration 단위로 더 세세하게 평가
- evaluation stream: 연속학습에 사용되는 학습 태스크(데이터셋)에 대한 평가 태스크(데이터셋)
- evaluation metrics: 평가지표

Stability-based metrics

이전에 학습된 태스크에 대한 지식이 얼마나 유지되는지 평가
기존 평가지표
- Average Forgetting (FORG)
  - 정확도 차이의 평균
  - 값이 클수록 catastrophic forgetting이 큼을 의미
신규 평가지표
- Average minimum accuracy (min-ACC)
  - 이전 평가 태스크들에 대한 절대적인 최소 정확도의 평균
- Windowed Forgetting (WF)
  - 윈도우 사이즈 내에서 성능 하락폭이 제일 큰 경우를 측정
  - 태스크 단위의 데이터 흐름을 가정하는 게 아니라, 연속적인 학습과정을 가정

Plasticity-based metrics

현재 데이터로부터 새로운 지식을 얻는 능력을 측정
기존 평가지표
- Learning Curve Area (few-shot measure)
- zero-shot Forward Transfer
신규 평가지표
- Windowed Plasticity (WP)
  - 윈도우 사이즈 내에서 성능 상승폭이 제일 큰 경우를 측정
  - 태스크 단위의 데이터 흐름을 가정하는 게 아니라, 연속적인 학습과정을 가정

Stability-Plasticity trade-off based metrics

새로운 태스크에 대한 학습과 이전 태스크에 대한 지식 유지 사이의 균형을 측정
기존 평가지표
- Average Accuracy (ACC)
  - 이전 태스크들과 현재 학습한 태스크에 대한 정확도의 평균
신규 평가지표
- Worst-case Accuracy (WC-ACC)
  - 현재 태스크의 정확도와 이전 평가 태스크들의 min-ACC (최소 정확도)의 평균

태스크 학습이 끝난 이후에 이전 태스크의 성능을 측정하는 것보다 더욱 세세한 주기로 평가하는 것이 stability gap을 파악하는 데에 주효
- 따라서 태스크 학습이 끝난 이후에 태스크 단위로 성능을 평가하던 기존의 평가지표는 stability gap을 파악할 수 없음
stability gap은 데이터의 분포의 변화가 클수록(=태스크 사이의 유사성이 떨어질수록) 크게 나타남

원인을 파악하고자 plasticity에 대한 gradient와 stability에 대한 gradient를 분리
새로운 태스크 학습이 시작될 때 이전 태스크에 대한 stability gradient는 0에 가까움
- 이전 태스크에 대해 모델이 학습을 통해 수렴(converge)
- forgetting: plasticity gradient와 stabiltiy gradient 사이의 불균형 때문에 (= stabilty gradient가 0에 가깝기 때문에) plasticity gradient를 감소하는 방향으로 학습이 진행, 이전 태스크에 대한 학습 비중 떨어짐
- recovery: 학습이 진행되면서 데이터 분포가 이전 태스크와 달라짐에 따라 stability gradient 증가, 재학습 이루어짐
- 이전 태스크에 대한 성능이 유지되는 것이 아니라 재학습이 이루어짐으로써 안정성이 보장됨을 주장

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab