ELLE: Efficient Lifelong Pre-training for Emerging Data

jihyelee·2023년 2월 8일

continual-learning

목록 보기

12/16

Lifelong Learning(연속학습, 평생학습)
- 새로운 지식을 점진적으로 학습하는 동시에 기존의 지식을 잊어버리는 catastrophic forgetting 완화를 목표로 함
- memory-based(=replay), consolidation-based(=regularization), dynamic architecture(=parameter-isolation) 방법 등이 존재
효율적인 사전학습
- 기존 PLM의 지식을 활용하여 사전학습을 진행하는 back distill
- 파라미터를 재활용하여 기존 PLM의 크기를 키우는 progressive training 등의 방식 존재

사전학습된 언어모델(pretrained language model; PLM)은 정적인 데이터를 기반으로 학습되었으나, 실용적인 쓰임을 위해서는 다양한 출처의 새로운 데이터들을 연속적으로 학습해야 함 (lifelong pretraining; 연속 사전학습)
제한적인 컴퓨터 자원을 사용해 효율적으로 연속 사전학습을 진행해야 함 (efficiency; 효율성)

function preserved model expansion
- 효율적인 지식 증가(efficient knowledge growth)를 목표로 유연하게 PLM의 깊이와 넓이를 증가
- 넓이 증가에는 function preserving initialization(FPI)+랜덤 노이즈 사용해 동일한 인풋에 대해 거의 동일한 아웃풋을 가질 수 있도록(=have approximately same functionality)
- 깊이 증가에는 새롭게 제안한 레이어 삽입 방식(랜덤하게 레이어 선택해 각 레이어의 파라미터를 복제하여 해당 레이어 앞 혹은 뒤에 삽입) 사용
- 이러한 과정을 통해 기존 PLM의 지식을 물려받음
- expansion 과정에서 소실된 성능을 복원하기 위해 function recovering warmup(이전 corpora로 expanded PLM 사전학습) 진행
pretrained domain prompts
- 적절한 지식 촉진(proper knowledge stimulation)을 목표로 다양한 출처의 지식들이 구분(disentangle)될 수 있도록 도메인 프롬프트를 사전학습
- 해당 프롬프트를 도메인 지시자(indicator)로 활용

사전학습 데이터
- 5개 도메인의 streaming data (Wikipedia and Bookcorpus, News Articles, Amazon Reviews, Biomedical Papers, Computer science papers)
- 각각 3,400M 토큰 샘플링
평가데이터(downstream)
- MNLI, Hyperpartisan, Helpfulness, Chemprot, ACL-ARC
모델
- BERT, GPT
평가기준
- 1) 사전학습 성능에 대해 average perplexity(모든 학습 데이터에 대한 평균 성능), average increased perplexity(현재 데이터가 이전 데이터에 미치는 영향)
- 2) 평가데이터 기반 downstream 성능 평가

각 도메인의 학습 데이터에서 200M 토큰 랜덤 샘플링, 이를 사용해 function recovering warmup과 memory replay 시 사용
- 사전학습 시 필요한 컴퓨터 자원보다 대량의 데이터를 보관하는 비용이 더욱 저렴하다고 설명하나 상당히 큰 규모의 메모리가 필요

사전학습(pretraining), downstream task에 대해서 모두 뛰어난 성능
- 학습 시 더 많은 지식을 얻음과 동시에 지식을 잊어버리는 문제를 완화
모델 아키텍처와 크기에 무관(agnostic)
- BERT, GPT 등 각기 다른 모델에 모두 사용 가능
lifelong pretraining에서 네트워크의 크기를 늘리는 것 = architecture 방법이 사전학습과 downstream task 성능을 향상시키는 데에 가장 유용함을 보임
- replay 방법은 pretrain 시 knowledge forgetting을 완화시켜줄 수 있으나 downstream 성능은 떨어질 수 있다는 것을 밝힘
- regularization 방법의 경우 PLM의 knowledge acquisition에 유용하지 않다는 사실을 보임
- 참고: Towards Continual Knowledge Learning for Language Models 또한 네트워크의 크기를 늘리는 것이 가장 유용하다고 평가