Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs

jihyelee·2023년 2월 7일
0

knowledge-edit

목록 보기
10/15

Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs

분야 및 배경지식

  • model edit
    • 모델이 학습한 parameter 내의 knowledge를 수정하고자 하는 방법 (implicit edit)
    • retrieval이나 별도의 memory를 이용해 잘못된 지식을 수정하고자 하는 external edit 방식과 구별됨
    • 언어모델이 학습한 시점과는 다른 미래의 정보에 대해 어려움을 겪으며, 틀리거나 옳지 않은(e.g.편견) 정보를 학습할 수 있다는 점에서 모델의 수정이 중요한 화두로 떠오름
    • 해당 논문에선 model이 갖고 있는 knowledge를 belief라는 단어로 명명

문제점

  • 기존에 제안되었던 hypernetwork (=learned optimizer) 방식인 KnowledgeEditor의 경우 한 번의 수정만 가능
    • 다른 지식을 업데이트하기 위해서는 원래의 모델로 rollback 수행 후 edit 진행
    • sequential(일련의, 연속적인) model edit에 대한 고려 부족

해결책

SLAG (Sequential, Local, and Generalizing Model Updates)

  • KnowledgeEditor의 learned optimizer와 유사하나 발전된 형태
    • 단일 지식만 업데이트할 수 있는 게 아니라 연속적으로 여러 개 업데이트 가능 (e.g. 10개)
      • g는 learned optimizer, model parameter theta를 update할 때 여러 개의 knowledge에 대한 연속적인 학습도 처리할 수 있게끔 loop 상황을 가정하고 이를 objective에 반영
    • 실제 데이터 레이블을 가지고 학습 진행
      • sequence-to-sequence task에서 update를 위해 label을 변경할 때 모델의 예측값이 틀리다면 정답 레이블을 사용하고 그렇지 않다면 학습 데이터에서 다른 레이블을 무작위로 선택
      • 기존 연구에서는 모델의 예측값과 beam search로 대체 레이블(update할 label)을 선택하였는데, 이는 쉬운 세팅임을 증명함
      • We find that correcting model outputs is harder than simply changing them to a plausible alternative. ... This suggests that past work has overestimated the efficacy of belief update methods for actually fixing models

평가

  • 평가기준
    • update success rate (main input): input에 대해 원하는(변경된) output이 나오는지
    • update success rate (paraphrase): 유사한 input에 대해서도 원하는 output이 나오는지
    • update success rate (entailed data): main input과 논리적으로 함의 관계에 있는 데이터들에 대한 예측이 정확한지
      • 예를 들어 main input x_i가 참이라는 명제는 수반된(entailed) input x_e가 레이블 y_e를 갖고 있다는 사실을 암시
    • retain rate (all data): update와 관련없는 다른 데이터들의 대한 결과가 변하지는 않았는지 (무작위 데이터)
    • retain rate (local neutral): 전혀 관련없는 무작위 부분집합이 아니라 main input과 유사해 보이지만 논리적으로 관련 없는 데이터에 대해 결과가 변하지는 않았는지 (위 항목보다 어려운 상황 가정)
      • 예를 들어 (subject, relation, object)가 하나의 knowledge라면 subject는 update할 것과 동일한데 relation, object가 다른 경우
    • Δ-acc (all data): main input 이외의 다른 데이터들에 대해 정확도가 얼마나 변화하였는지

  • 데이터셋
    • zsRE, Wikidata5m, FEVER, LeapOfThought
  • 모델
    • RoBERTa-base (binary tasks)
    • BART-base (sequence-to-sequence tasks)

한계

  • 기존 연구들과 다르게 knowledge가 아니라 belief라는 단어를 선택해 사용하면서 그 이유에 대해 상세히 설명하였으나, 개인적으로는 그다지 설득력 있게 들리지 않음
  • optimizer 학습을 위해 main input, paraphase, entailment, local neutral, retain 등 평가 기준에 사용되는 모든 데이터셋에 대한 loss를 결합, novelty 부족
    • training objective에 대한 ablation이 있으나 단순히 실험 결과 나열에 불과 (관계성, 포함 이유, 상호간의 관계 등에서는 자세한 고찰 없음)
  • model edit은 모델에 잘못된 지식을 주입할 수 있는 ethical concern이 존재

의의

  • off-the-shelf optimizer가 잘 튜닝된다면 기존에 제안되었던 hypernetwork (learned optimizer) 방식인 KnowledgeEditor보다 더 좋은 성능을 보일 수 있음을 밝힘
  • 다른 baselinee들을 상회하는 연속적인 model edit을 위한 새로운 objective 제시 (SLAG)
  • 다양한 실험을 통한 흥미로운 결과 제시
    • retain rate는 데이터에 대한 예측이 옳은지 여부에 크게 영향을 받음
      • 옳지 않은 예측은 모델의 업데이트에 굉장히 민감
    • local neural belief가 단순히 랜덤 데이터에 비해 변화를 피하기 어려움
  • belief graph를 통해 모델이 가지고 있는 믿음 사이의 관계성 파악
    • 몇몇 belief는 많은 belief들의 변화에 민감 (쉽게 변화 가능)
    • 몇몇 belief는 변화할 시 많은 수의 belief에 영향을 미침
    • A를 업데이트할 때 B가 변화하고, B를 업데이트할 때 C가 변화하면 A가 업데이트할 때 C가 변화해야 하는데, 이러한 transitivity(타동성)은 쉽게 일어나지 않음
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글