aims to enable fast, data-efficient updates to a pre-trained base model’s behavior for only a small region of the domain, without damaging model performance on other inputs of interest
업데이트된 지식을 주입하거나 바람직하지 않은 예측을 수정
불충분한 표현성(expressiveness)의 한계
수정하고자 하는 범위를 정확하게 모델링하기 어려움, 수정하고자 하는 지식과 느슨하게 관련된 예시들에 대해 부정확한 예측 (fail to discrimiate between entailed and non-entailed facts)
수정을 많이 진행할 경우 실패 (cannot handle large numbers of edits)
종합적으로, 기존의 연구들은 수정 성능, 연산 효율성, 궁극적인 실현가능성(practicality)의 한계를 보임 (implicit knowledge edit의 경우 gradient-based, 저자들은 이 방식이 한계가 있음을 주장. Gradients may therefore not provide sufficiently ‘global’ information to enable reliable edit scoping, particularly for distant but related example)
out-of-scope example: nearest neighbors in a semantic sentence embedding space, hand-annotated corresponsdence 활용
문제점
모델이 배포된 이후 모델의 일부 행동을 빠르게 수정하는 능력이 필요
거대한 크기의 인공신경망 또한 오류를 만들 수 있음
시간이 지나고 세상이 변함에 따라 한때 정확했던 예측이 유효하지 않을 수 있음
해결책
SERAC (Semi-Parametric Editing with a Regtrieval-Augmented Counterfactual Model)
기존의 연구들과는 다르게, parameter space에서 모델 수정을 가하는 것이 아니라, 기존 모델은 수정하지 않은 채 캐시 내 저장한 수정 예시들을 활용하는 방식 (gradient-free memory-based)
edit memory
사용자가 제공한 edit descriptor를 저장한 캐시 메모리
scope classifier
모델의 예측이 "언제" 수정되어야 하는지를 판단 (주어진 input이 edit scope에 있는지 여부를 판단)
가장 높은 확률이 in-scope로 판단된다면 새로운 input과 edit memory로부터 주어진 수정 정보를 활용해 counterfactual model이 예측 진행, out-of-scope로 판단된다면 기존의 base model의 예측 활용
수정되는 정보들 사이의 간섭(interference)을 줄임
cross-attention, embedding-based 두 방식에 대해 실험 진행, cross-attention이 더욱 좋은 성능
counterfactual model
모델의 예측이 "어떻게" 수정되어야 하는지를 판단
기존 모델(base model)과 동일한 output-space를 갖는 sequence model
평가
Evaluation Dataset and Tasks
QA & QA-hard
zsRE question-answering problem, T5
QA-hard의 경우 더욱 어려운 in-scope/out-of-scope 예시들을 포함 (in-scope의 경우 기존 논문에서 제시된 테크닉 활용, out-of-scope의 경우 높은 cosine silimarity를 가진(=high semantic similarity) 예시 활용)
fact-checking
VitaminC fact verification dataset, BERT
entailment dataset을 in-scope, out-of-scope로 전환
dialogue generation
ConvSent; 다른 주제들에 대한 생성(generation)에 영향을 미치지 않고 특정 주제에 대한 dialog agent의 감정을 수정할 수 있는지 여부를 판단 가능한 새로운 데이터셋, RoBERTa
Metrics
edit success: in-scope inputs에 대해 얼마나 잘 예측을 진행하는지 (similarity between edited / desired behavior)
감사합니다. knowledge edit 파트 공부중에, 덕분에 도움받고갑니다