abstract
LM을 black box로 보고 retrieved document를 input으로 넣는다
LM을 retreival model의 supervisor로 삼는다
previous retrieval augmented language models
intro
방식
background
LLM 자체에 대한 fine-tuning cost 너무 높아 black-box setting 선호
language model에 다양한 knoweledge store에서 얻은 정보를 추가제공할 때 NLP task에서 성능이 올라감을 확인
더 세부적으로 input을 query삼아 set of document를 모으고
이 정보를 최종 결정을 내기 위한 input에 concat 시켜 결과를 얻는다
Method(REPLUG)
retriever weight fixed
먼저 document retrieval 수행
dual encoder architecture 사용 : input context와 document를 encode
input reformulation 수행
이렇게 얻어진 retrieval data들의 활용방법
대안으로 ensemble 방식
각각의 k document에 대해 x(query) + k(document) 를 LLM에 넣음
REPLUG LSR 도 제안
trainable retriever weight
retrieval likelihood와 LM likelihood 계산해서 KL loss 최소화로 retriever를 훈련시킨다
retriever가 계속 update되기 때문에 embedding 결과가 계속 변함