Continual evaluation for lifelong learning: Identifying the stability gap

jihyelee·2023년 2월 19일
0

continual-learning

목록 보기
14/16

Continual evaluation for lifelong learning: Identifying the stability gap
ICLR 2023

분야 및 배경지식

연속학습 (Continual Learning, Lifelong Learning)

  • 연속적으로 새로운 class, domain, 혹은 task를 학습하는 문제
    • 분야에 따라 class-incremental, domain-incremental, task-incremental로 분류되기도 함
  • Stability-Plasticity tradeoff (안정성-적응성 균형)
    • Stability(안정성): 이전에 학습한 데이터 분포에서 얻은 지식을 유지하는 것, 이전의 지식을 까먹을 경우 catastrophic forgetting이 발생
    • Plasticity(적응성): 현재 데이터 분포를 잘 학습하는 것
    • 둘 사이에는 tradeoff 발생
  • Methods
    • memory-based (experience replay): 메모리에 학습한 샘플의 일부를 저장, 이후 학습 시 재사용
    • regularization-based: L2 norm 등을 이용한 정규화 이용 (model-prior based라고 불리기도 함)
    • architecture-based: adapter와 같이 특정 태스크를 위한 파라미터를 모델에 추가

문제

Stability Gap

  • 연속학습에서 새로운 태스크를 배우기 시작할 때 기존 태스크의 성능이 일시적으로 크게 떨어지며 (substantial forgetting) 이후 성능이 다시 회복되는 현상
  • 연속학습 방법들 중에서 memory-based, regularization-based, distillation 등의 방식에서 Stability Gap이 발생 (architecture-based에서는 발생 X)

해결책

Continual Evaluation

  • Stability Gap을 측정하기 위한 새로운 프레임워크
    • evaluation periodicity: 연속학습을 위한 평가의 인터벌, 기존의 평가들은 task의 학습이 끝나고 진행되었으나 continual evaluation에서는 iteration 단위로 더 세세하게 평가
    • evaluation stream: 연속학습에 사용되는 학습 태스크(데이터셋)에 대한 평가 태스크(데이터셋)
    • evaluation metrics: 평가지표

Metrics

Stability-based metrics

  • 이전에 학습된 태스크에 대한 지식이 얼마나 유지되는지 평가
  • 기존 평가지표
    • Average Forgetting (FORG)
      • 정확도 차이의 평균
      • 값이 클수록 catastrophic forgetting이 큼을 의미
  • 신규 평가지표
    • Average minimum accuracy (min-ACC)
      • 이전 평가 태스크들에 대한 절대적인 최소 정확도의 평균
    • Windowed Forgetting (WF)
      • 윈도우 사이즈 내에서 성능 하락폭이 제일 큰 경우를 측정
      • 태스크 단위의 데이터 흐름을 가정하는 게 아니라, 연속적인 학습과정을 가정

Plasticity-based metrics

  • 현재 데이터로부터 새로운 지식을 얻는 능력을 측정
  • 기존 평가지표
    • Learning Curve Area (few-shot measure)
    • zero-shot Forward Transfer
  • 신규 평가지표
    • Windowed Plasticity (WP)
      • 윈도우 사이즈 내에서 성능 상승폭이 제일 큰 경우를 측정
      • 태스크 단위의 데이터 흐름을 가정하는 게 아니라, 연속적인 학습과정을 가정

Stability-Plasticity trade-off based metrics

  • 새로운 태스크에 대한 학습과 이전 태스크에 대한 지식 유지 사이의 균형을 측정
  • 기존 평가지표
    • Average Accuracy (ACC)
      • 이전 태스크들과 현재 학습한 태스크에 대한 정확도의 평균
  • 신규 평가지표
    • Worst-case Accuracy (WC-ACC)
      • 현재 태스크의 정확도와 이전 평가 태스크들의 min-ACC (최소 정확도)의 평균

평가

  • 태스크 학습이 끝난 이후에 이전 태스크의 성능을 측정하는 것보다 더욱 세세한 주기로 평가하는 것이 stability gap을 파악하는 데에 주효
    • 따라서 태스크 학습이 끝난 이후에 태스크 단위로 성능을 평가하던 기존의 평가지표는 stability gap을 파악할 수 없음
  • stability gap은 데이터의 분포의 변화가 클수록(=태스크 사이의 유사성이 떨어질수록) 크게 나타남

  • 원인을 파악하고자 plasticity에 대한 gradient와 stability에 대한 gradient를 분리
  • 새로운 태스크 학습이 시작될 때 이전 태스크에 대한 stability gradient는 0에 가까움
    • 이전 태스크에 대해 모델이 학습을 통해 수렴(converge)
    • forgetting: plasticity gradient와 stabiltiy gradient 사이의 불균형 때문에 (= stabilty gradient가 0에 가깝기 때문에) plasticity gradient를 감소하는 방향으로 학습이 진행, 이전 태스크에 대한 학습 비중 떨어짐
    • recovery: 학습이 진행되면서 데이터 분포가 이전 태스크와 달라짐에 따라 stability gradient 증가, 재학습 이루어짐
    • 이전 태스크에 대한 성능이 유지되는 것이 아니라 재학습이 이루어짐으로써 안정성이 보장됨을 주장

한계

  • stability gap이라는 흥미로운 현상을 증명하고 분석하였으나 비공식적으로 학계에서는 알려져있던 intuition을 공식화한 논문
  • 단순한 image dataset과 speech recognition 태스크에 한정된 분석
  • stability gap을 줄일 수 있는 메커니즘에 대한 제시가 없음

의의

  • stability gap이라는 독특한 현상에 대한 분석과 원인 파악
  • continual evaluation이라는 새로운 프레임워크 제시
  • 다양한 실험 및 자세한 분석을 바탕으로 논문이 매끄럽게 진행됨
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글