Fast Model Editing at Scale

jihyelee·2023년 1월 18일

knowledge-edit

목록 보기

11/15

Fast Model Editing at Scale
ICLR 2022

분야 및 배경지식

Implicit knowledge edit (model edit)

사전학습 모델의 예측 오류, 잘못된 지식을 수정하고자 하는 연구 분야. memory-augmented 방식을 사용하는 explicit knowledge edit과 다르게 모델 자체를 수정한다는 점에서 구분될 수 있음

Modifying memories in transformer models, 2020

method: finetuning with L-inf norm (constrained optimization)
limit: parameter-space만 고려, 충분한 데이터 없이 single edit일 경우 model degradation

Editable neural networks, 2020

method: meta-learning, 모델의 파라미터 자체에 수정가능성(editability)을 encode하는 방식 (intrinsic editability)
- loss = base task loss + locality loss + edit loss
limit: high memory consumption

Editing factual knowledge in language models, 2021

method: hyper network, 모델의 파라미터와 독립적인 별도의 학습된 파라미터를 통해 수정가능성(editiability) 제시 (extrinsic editability)
- raw edit example을 input으로, gradient에 적용할 rank-1 mask와 rank-1 offset을 output으로 하는 knowledge editor 제공
limit: rich-information in gradient를 충분히 활용하지 못함, input-size에 관계없이 rank-1 결과를 냄

문제점

거대한 사전학습 모델들은 오류를 만들기도 하며, 심지어 정확했던 예측 또한 시간이 지남에 따라 틀려지곤 함
distributed, black-box적인 특성 때문에 모델 내 특정한 타겟을 수정하는 것은 굉장히 어려움

해결책

MEND (Model Editor Networks with Gradient Decomposition)

단일한 인풋-아웃풋 쌍으로 사전학습 모델의 행동에 변화를 줄 수 있는 작은 auxiliary editing network의 집합
- 데이터: 수정할 input x, output y, 수정할 내용과 전혀 관계없는 locality x, 유사한 의미를 갖는 input x', output y'
모델의 파라미터와 독립적인 별도의 학습된 파라미터를 통해 수정가능성(editiability) 제공 (extrinsic editability)
gradient를 low-rank decomposition한 후 gradient를 변형시킴으로써 모델을 빠르고 가볍게 수정
- a method for learning to transform the raw fine-tuning gradient into a more targeted parameter update that successfully edits a model in a single step

평가

평가기준
- reliability: 모델의 아웃풋을 성공적으로 수정/업데이트
- locality: 관련되지 않은 모델의 아웃풋에는 최소한의 영향만을 미침
- generality: 수정하고자 하는 인풋과 관련된 다른 인풋들에 대해서도 옳은 결과를 생성 (e.g. paraphrase, equivalent)
평가 데이터셋
- zsRE question-answering: equivalence neighborhood data는 backtranslation으로, 대체할 수정 레이블은 파인튜닝한 BART 모델의 상위 예측값 이용. locality x는 독립적인 질문들을 샘플링
- FEVER fact-checking: equivalence neighborhood data는 fact rephrasing으로, 대체할 수정 레이블은 p=0.5의 베르누이 분포에서 랜덤 샘플링. locality x는 랜덤하게 추출
- Wikitext generation: GPT-style 모델을 평가하기 위해 직접 생성. 수정할 x는 Wikitext-103에서, 수정할 레이블은 사전학습된 distilGPT-2 모델로부터 10개 토큰 샘플링. locality x는 Wikitext로 사전학습된 모델의 경우 Wikitext-103에서, GPT-Neo/J는 OpenWebText에서 샘플링
평가결과
- 매우 큰 모델의 경우 MEND가 모든 태스크에 걸쳐 가장 좋은 성능 (GPT, T5 계열)
- 작은 규모의 경우 ENN이 MEND와 유사하게 좋은 성능을 보이나, ENN은 사전학습 모델을 수정가능하도록 변경하기 위해 fine-tuning 필요하다는 단점 (BERT, BART, distilGPT)
- batched editing(한 번의 모델 업데이트에 여러 개의 수정을 가할 시)의 경우 25개에 대해 96%의 성공과 1%의 정확도 저하가 발생 (ENN의 경우 35% 성공)

의의

모델의 에러를 수정한다는 중요한 문제를 다룸
이전의 유사한 연구들 대비 뛰어나며(superior) novelty가 있다는 평가 (from openreview)
- single input-output에 대해서도 model edit을 훌륭히 수행
- information-rich gradient를 rank-1 gradient로 사용해 모델 수정의 복잡성을 감소시킴 (자원효율적)
- GPT-style, T5와 같은 큰 모델에서도 사용 가능 (practical, competitive, lightweight) - 이전 연관 연구들은 이를 달성하지 못함

한계

적절한 eval 기준을 제시하였으나 이를 만족하는 eval metric이 다소 취약
locality example(모델 수정 이후에도 결과가 동일하게 유지되어야 할 예시들)이 너무 단순, 더욱 어려운 hard negatives를 사용하여 평가 필요
유사한 데이터(equivalence neighborgood)들의 수집에 대해 더 다양한 방법 고민 필요(예: counterfactual data augmentation)