Do Language Models Have Beliefs? Methods for Detecting, Updating, and Visualizing Model Beliefs

jihyelee·2023년 2월 7일

knowledge-edit

목록 보기

10/15

model edit
- 모델이 학습한 parameter 내의 knowledge를 수정하고자 하는 방법 (implicit edit)
- retrieval이나 별도의 memory를 이용해 잘못된 지식을 수정하고자 하는 external edit 방식과 구별됨
- 언어모델이 학습한 시점과는 다른 미래의 정보에 대해 어려움을 겪으며, 틀리거나 옳지 않은(e.g.편견) 정보를 학습할 수 있다는 점에서 모델의 수정이 중요한 화두로 떠오름
- 해당 논문에선 model이 갖고 있는 knowledge를 belief라는 단어로 명명

기존에 제안되었던 hypernetwork (=learned optimizer) 방식인 KnowledgeEditor의 경우 한 번의 수정만 가능
- 다른 지식을 업데이트하기 위해서는 원래의 모델로 rollback 수행 후 edit 진행
- sequential(일련의, 연속적인) model edit에 대한 고려 부족

기존 연구들과 다르게 knowledge가 아니라 belief라는 단어를 선택해 사용하면서 그 이유에 대해 상세히 설명하였으나, 개인적으로는 그다지 설득력 있게 들리지 않음
optimizer 학습을 위해 main input, paraphase, entailment, local neutral, retain 등 평가 기준에 사용되는 모든 데이터셋에 대한 loss를 결합, novelty 부족
- training objective에 대한 ablation이 있으나 단순히 실험 결과 나열에 불과 (관계성, 포함 이유, 상호간의 관계 등에서는 자세한 고찰 없음)
model edit은 모델에 잘못된 지식을 주입할 수 있는 ethical concern이 존재

off-the-shelf optimizer가 잘 튜닝된다면 기존에 제안되었던 hypernetwork (learned optimizer) 방식인 KnowledgeEditor보다 더 좋은 성능을 보일 수 있음을 밝힘
다른 baselinee들을 상회하는 연속적인 model edit을 위한 새로운 objective 제시 (SLAG)
다양한 실험을 통한 흥미로운 결과 제시
- retain rate는 데이터에 대한 예측이 옳은지 여부에 크게 영향을 받음
  - 옳지 않은 예측은 모델의 업데이트에 굉장히 민감
- local neural belief가 단순히 랜덤 데이터에 비해 변화를 피하기 어려움
belief graph를 통해 모델이 가지고 있는 믿음 사이의 관계성 파악
- 몇몇 belief는 많은 belief들의 변화에 민감 (쉽게 변화 가능)
- 몇몇 belief는 변화할 시 많은 수의 belief에 영향을 미침
- A를 업데이트할 때 B가 변화하고, B를 업데이트할 때 C가 변화하면 A가 업데이트할 때 C가 변화해야 하는데, 이러한 transitivity(타동성)은 쉽게 일어나지 않음

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab