Towards Continual Knowledge Learning of Language Models

jihyelee·2023년 5월 22일
1

continual-learning

목록 보기
15/16

Towards Continual Knowledge Learning of Language Models
ICLR 2022

분야 및 배경지식

  • Continual Learning
    • 연속적으로 일련의 데이터(task, domain, or class)를 학습하는 문제
    • 다양한 task의 데이터를 한번에 학습하는 multitask learning과는 달리, 급변하는 사회라는 현실적인 조건에 더욱 초점을 둔 문제
    • catastrophic forgetting
      • 과거에 학습한 지식을 잊어버리는 것
    • knowledge transfer
      • 이전에 배운 지식을 바탕으로 새로운 태스크를 더욱 잘 학습하거나, 새로운 태스크를 통해 이전에 학습한 태스크를 더욱 잘 해결하는 것
  • Factual Knowledge
    • 대량의 corpora를 기반으로 학습한 pretrained language model은 downstream task에 유용한 factual knowledge를 내포하고 있음

문제

  • Language Model이 갖고 있는 세상에 대한 지식은 급변함 (outdated)
  • 기존의 factual knowledge에 관한 연구들은 LM에 특정한 지식을 주입하거나 수정하는 데에 집중
    • 새로운 지식을 학습함으로써 생기는 기존 지식의 catastrophic forgetting에 대한 연구는 미비

해결책

  • Continual Knowledge Learning이라는 새로운 문제 정의
    • 새로운 corpora를 연속적으로 pre-train함으로써 LM에 담긴 internal world knowledge를 갱신하고자 하는 문제
  • CKL을 위한 새로운 benchmark
    • 시간과 무관한 time-invariant world knowledge, 수정이 필요한 knowledge, 기존 LM이 갖고 있지 않던 새로운 knowledge를 측정하기 위해 InvariantLAMA, UpdatedLAMA, NewLAMA 제시
  • CKL을 위한 새로운 metric
    • FUAR (Forgetten / (Updated + Acquired) 비율)
    • 1보다 작을 경우 좋으며, 0이 가장 좋은 경우

의의

  • 기존 continual learning method에 대한 다양한 실험 (rehearsal, regularization, parameter-isolation)
    • replay가 좋은 성능을 보이는 전통적인 CL과는 달리, CKL에서는 replay보다 parameter expansion의 성능이 가장 좋음을 밝힘
  • 동일 데이터를 반복적으로 pretrain하거나, multiple phase를 학습할 시 성능이 현저히 떨어짐을 밝힘
    • LM should be pretrained with just a few epochs on less duplicating data for efficiency

한계

  • 문제 정의가 과하게 단순화된 경향이 있음 (oversimplified)
  • real-world scenario에서 어떤 지식이 new이며 어떤 지식이 updated인지 판단하기 모호
  • LAMA probing에 국한
    • LM의 knowledge에만 초점을 맞춘 연구로 실제 downstream application에 대한 성능 고려 미비
  • 2-phase setting만 고려 (multiple updates에 대한 실험 부족)
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글

관련 채용 정보