Continual Sequence Generation with Adaptive Compositional Modules

jihyelee·2023년 2월 2일
0

continual-learning

목록 보기
8/16

Continual Sequence Generation with Adaptive Compositional Modules
ACL 2022

분야 및 배경지식

Continual Learning, Adapter

  • Continual Learning
    • 연속하여 다른 태스크, 도메인, 클래스 등을 학습하는 문제
    • 데이터가 연속적으로 들어오며, 기존 모델이 학습한 데이터와 다른 데이터 분포를 가짐
    • experience replay: 이전 학습에 사용되었던 데이터 일부를 학습에 재사용
    • regularization: 학습 시 규제 추가해 심각한 왜곡이 일어나지 않도록
    • parameter-isolation: 기존 파라미터는 고정, 새로운 태스크에 대해 새로운 파라미터 추가
  • CL for Sequence Generation
    • auto-regressive 언어모델(LM)을 기반으로 만들어진 LAMOL이 대표적
    • knowledge distillation이 효과적임을 밝힘
  • Adapter
    • 각각의 고정된 사전학습 트랜스포머 레이어에 삽입된 태스크 특화 모듈

문제점

  • Catastrophic forgetting, Knowledge Transfer
    • 연속학습에서 기존의 파라미터 재사용은 유사하지 않은 태스크들에 대해 catastrophic forgetting(이전 지식을 까먹음)을 야기하며, 새로운 태스크들에 대해 새로운 파라미터를 추가하는 것은 유사한 태스크들 사이의 지식 전파(knowledge transfer)를 어렵게 함
  • Continual Sequence Generation is more challenging
    • 텍스트 분류, 질의응답과 같은 태스크와 다르게 시퀀스(문자열)생성은 뚜렷한 레이블(정답)이 없기 때문에 더욱 어려움

해결책

Adaptive Compositional Modules

  • Decision Stage
    • 어떤 모듈을 재사용하고 새로운 모듈 추가가 필요할지 여부를 결정
    • 모듈 선택에는 interpolation-based data augmentation과 neural architecture search에서 영감을 받은 Hidden State Mixing 사용
      • 가장 큰 learned weight를 가진 모듈이 가장 유용한 모듈이라고 판단, 재사용
  • Training Stage
    • 모델 아키텍처 확정 단계
    • pseudo experience replay(이전 학습된 태스크와 관련있는 가짜 데이터를 만들어 현재 학습에 재사용) 사용
      • 생성모델로 하여금 현재 태스크를 해결함과 동시에 현재 태스크의 예시를 만들도록(=pseudo) 학습
      • 학습 loss는 finetuning loss + generation loss의 조합으로 이루어짐

평가

  • 데이터셋
    • E2ENLG, RNNLG for similar tasks: 유사한 태스크, 다른 도메인
    • WikiSQL, CNN/DailyMail, MultiWOZ for dissimilar tasks: distribution shift가 기존과 상당히 다른 태스크
  • 태스크
    • 자연어 생성, SQL 쿼리 생성, 요약, 태스크 지향 대화

한계

  • 재사용을 위한 모듈을 판단하기 위해서는 학습을 거쳐야 하기 때문에 추가적인 학습 시간이 필요 (decision stage)

의의

  • Go beyond the notion of task-specific
    • 태스크 특화 모듈을 주로 사용했던 기존의 접근 방식과 달리, 모듈 재사용을 통한 지식 전파 극대화 및 상황에 맞는 모듈 추가에 따른 이전 지식 망각 문제 완화를 동시에 달성
  • 모듈의 learnable weight coefficient가 특정 레이어에서 균등한 분포를 띄지 않게 하기 위해 entorpy loss를 규제로 추가하였는데, 해당 loss가 파라미터를 추가하는 것과 좋은 성능을 내는 것 사이의 더 좋은 trade-off를 달성함을 밝힘
  • weight initialization이 유사한 태스크들 사이의 지식 전파에 중요함을 밝힘
  • pseudo experience replay가 성능 향상에 중요함을 밝힘
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글

관련 채용 정보