Continual Few-shot Relation Learning via Embedding Space Regularization and Data Augmentation

jihyelee·2023년 1월 27일
0

continual-learning

목록 보기
10/16

Continual Few-shot Relation Learning via Embedding Space Regularization and Data Augmentation
ACL 2022

분야 및 배경지식

Continual Learning, Few-shot Learning, Relation Extraction

  • Relation Extraction
    • 한 문장의 두 개체 사이의 관계를 파악하는 문제. 질의응답이나 검색과 같은 downstream task 수행에 있어 중요한 역할
  • Continual Learning
    • 일련의 태스크를 연속해서 학습하는 방법
    • regularization-based, architecture-based, memory-based 방법으로 크게 구분할 수 있음.
    • 이전에 얻은 지식을 활용함으로써 새로운 환경이나 태스크에 빠르게 적응하는 것이 CL의 주요 목표 중 하나
  • Few-shot Learning
    • 몇 개의 labeled data를 학습함으로써 태스크를 푸는 방법으로, 과적합의 위험이 존재
    • data-based: 이전의 지식을 활용해 데이터를 증가
    • model-based: 이전의 지식을 활용하여 hypothesis space를 줄임
    • algorithm-based: 전체 hypothesis space에서 최고의 hypothesis를 찾을 수 있는 적합한 전략을 찾음

문제점

  • 기존의 CL은 충분한 labeled 학습 데이터에 의존하나 실제 상황에서 large representative labeled data 확보하는 것은 시간과 비용이 많이 듦
  • few-shot data로 학습 시 overfitting(과적합) 문제 + 새로운 데이터의 feature distribution과 이전에 학습된 데이터의 embedding space가 다를 시 distortion 발생 가능

해결책

Continual Few-shot Relation Learning (CFRL)

  • 이전에 학습한 내용을 잊지 않음 (alleviating catastrophic forgetting)
  • 새로운 few-shot task에 충분히 일반화 가능
  • 새로운 관계형(relation type)은 계속해서 만들어지기 때문에 CL 필요

Embedding space Regularization and Data Augmentation (ERDA)

  • embedding space regularization: cross entropy loss를 활용하여 새로운 관계정보를 학습하는 기존의 비용함수에 더하여 새로운 regularization(규제)을 추가
    • multi-margin loss: 예시와 실제 정답 사이의 점수는 증가시키고, 잘못된 레이블에 대한 점수는 낮추기 위한 loss. intra-class compactness를 보장하는 동시에 inter-class distance 증가
    • pairwirse margin loss: 예시와 실제 정답 사이의 점수는 증가시키고, 잘못된 레이블에 대한 점수는 낮추기 위한 loss. 가장 가까운 잘못된 레이블의 유사도가 정답 레이블의 점수보다 높을 때 penalize
    • contrastive loss: 제한된 데이터를 이용해 효율적으로 배우기 위해 hard negative sample을 활용. 모델이 더욱 정확하고 섬세하게 관계 지식을 학습할 수 있도록 hard negative로부터 적절한 관계를 구별 (hard negative는 entity pair에서 오직 하나만 다른 경우를 의미)
  • memory: 새로운 관계 당 하나의 샘플을 선택. centroid feature c에 가장 가까운 예시를 가장 많은 정보를 담은 샘플로 선택, 메모리에 저장
  • self-supervised data augmentation: 파인튜닝된 BERT를 사용해 label이 없는 Wikipedia 코퍼스로부터 높은 관계 유사 점수(relational similarity score)를 가진 믿을 만한 샘플을 선택
    • Entity Matching을 통한 Augmentation: 개체쌍을 추출, 일정한 threshold 이상의 유사도를 가진 쌍을 선택
    • Similarity Search를 통한 Augmentation: entity matching이 실패할 경우, Faiss를 이용해 top-K의 가장 높은 유사 점수를 가진 representation을 활용

평가

  • 태스크: Relation Extraction
  • 벤치마크: FewRel, TACRED
  • metrics: relation classification accuracy

한계

  • 기존 CL의 방법인 regularization과 널리 쓰이는 data augmentation을 활용, novelty 부족

의의

  • 다른 baseline 대비 뛰어난 성능
  • embedding space에 새로운 loss들을 적용해 (2 marginal losses, 1 contrastive loss) 성능 향상
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

0개의 댓글

관련 채용 정보