Adapting BERT for Continual Learning of a Sequence of Aspect Sentiment Classification Tasks

jihyelee·2023년 2월 2일
0

continual-learning

목록 보기
2/16

Adapting BERT for Continual Learning of a Sequence of Aspect Sentiment Classification Tasks
ACL 2021

분야 및 배경지식

Continual Learning, Adapter, Aspect Sentiment Classification

  • Continual Learning (연속학습)
    • 실용적인 쓰임 때문에 연구가 필요한 분야
    • 예를 들어 학습에 사용된 개인정보 데이터가 학습 후 삭제되어야 하는 등의 상황에서(=즉 새로운 태스크 학습 시 이전 데이터 사용 불가) 연속적으로 새로운 데이터를 학습하고 모델을 업데이트해야 할 때 이전의 데이터에 대한 예측도 잘 하면서도 새로운 데이터에 대한 예측도 잘 하는 방식을 연구하는 것이 연속학습의 주요한 목표
  • Lifelong Learning (평생학습)
    • 현재는 CL과 동의어로 사용됨
    • LL의 주요 목표는 새로운 태스크의 학습을 개선
  • Adapter-BERT
    • BERT의 각 트랜스포머 레이어에 2-layer fully connected network인 adapter를 추가
    • end-task를 학습함에 있어서 전체 모델을 학습하는 것이 아니라 adapter와 normalization layer만 학습함으로써 파라미터 효율화를 꾀함
  • Aspect Sentiment Classification
    • 감정 분류의 한 분야
    • 예를 들어 '이 제품은 사진 퀄리티는 좋으나 배터리는 금방 닳는다'라는 리뷰가 있다면, '사진'에 대해서는 '긍정', '배터리'에 대해서는 '부정'으로 판단할 수 있음

문제점

  • 이전 태스크의 지식을 전이해 새로운 태스크의 학습에 도움을 주는 knowledge transfer 연구 필요성
  • 동시에 이전 태스크의 성능을 유지하는 mitigating catastrophic forgetting 연구 필요성

해결책

B-CL (Bert-based Continual Learning) for ASC

  • CLA (Continual Learning Adapter)
    • Adapter-BERT의 구조에서 영감을 받아 만든 블럭
    • 캡슐 네트워크와 다이나믹 라우팅을 사용해 이전 태스크와 유사한 새로운 태스크를 판별(knowledge transfer)
    • 태스크 마스크를 사용해 태스크 특화 지식을 보존(catastrophic forgetting)
  • Capsule Network
    • 스칼라로 구성된 feature detector를 vector capsule로 치환해 더 많은 정보를 보존
    • 두 개의 레이어로 구성
    • dynamic routing algorithm을 활용해 더 낮은 단계의 캡슐 레이어가 유사한 성격을 가진 더 높은 단계의 캡슐 레이어에 연결되도록 구성 (Hinton의 논문에서 영감을 얻음)
  • Adapter-based block
    • adapter와 유사한 위치에 CLA를 삽입
    • 과 으로 구성
    • knowledge sharing module (지식 공유 모듈; KSM)
      • 두 개의 캡슐 레이어와 다이나믹 라우팅을 활용해 유사한 태스크(low-level capsule layers)들을 유사한 지식을 가진 캡슐(high-level capsule layers)로 연결
      • 높은 coefficient를 가진 유사한 태스크들의 경우 더 큰 gradient로 backpropagation, 낮은 coefficient를 가진 다른 태스크들의 경우 low gradient로 학습
        • coefficient는 i번째 태스크가 j번째 지식공유캡슐에 얼마나 많은 정보를 주는가를 나타냄, clustering의 역할 수행
    • task specific module(태스크 특화 모듈; TSM)
      • 태스크 마스크를 활용해 새로운 태스크를 학습할 때 사용된 뉴런의 gradient update, 학습을 막음
      • 겹치는 마스크가 있는 경우 유사한 태스크로 판단 가능

평가

  • 데이터셋
    • HL5Domains, Liu3Domains, Ding9Domains, SemEval14에서 총 19개 사용
  • 평가기준
    • 정확성, Macro-F1

한계

  • 캡슐 네트워크의 특성상 연산이 많아질 수밖에 없음 (비용 증가)

의의

  • forward, backward knowledge transfer를 통해 새로운 태스크와 이전 태스크의 성능을 모두 높임
    • forward transfer, 즉 이전 태스크들의 지식으로 새로운 태스크의 성능을 높이는 데에 높은 효과를 보임
    • backward transfer, 즉 새로 학습하는 태스크들의 지식으로 이전에 학습한 태스크의 성능을 높이는 데에는 약간의 효과를 보임
  • catastrophic forgetting의 완화에도 성능을 보임
  • capsule network, dynamic routing의 개념을 연속학습에 새로이 접목시킴
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글