검색된 문서 내에 잡음(irrelevant information)이 많아 응답의 품질과 신뢰도가 떨어지는 현상을 문제상황이라고 보고, 이를 해결하기 위해서 MultiAgent FIlteriNg Retrieval-Augmented Generation(MAIN-RAG)를 제안합니다.

MAIN-RAG에서 제안하는 세 개의 에이전트는 각각 Predictor, Judge, Final-Predictor로, Predictor는 각 문서에 대한 답을 찾고, Judge는 문서와 질문, 정답에 대한 triplet을 평가합니다. Final-predictor는 여기에서 threshold를 넘긴 문서들만을 남겨서 다시 정답을 만들게 됩니다.

각 문서가 질문에 진짜 도움이 되는지 판단하는 Agent-2(Judge)가 "Yes" 또는 "No"로 답변하고, 이 답에 대한 확률(모델이 "Yes" 혹은 "No"라고 판단할 자신감 정도)을 수치화해서 점수로 매깁니다. 이때 'Yes' 확률에서 'No' 확률을 뺀 값을 점수로 사용합니다. 이런 방식으로 가장 관련성이 높은 문서가 정렬되어서 다시 Agent-3의 입력값으로 들어가도록 만듭니다.

문서마다 Agent-2가 계산한 관련성 점수(Relevance Score)가 있는데, 이를 기반으로 어느 점수 이상을 '관련 문서'로 판단하고 아닌 문서들을 걸러내는 임계값(판단 기준, judge bar)을 정하는 것이 중요합니다. 하지만 질문(query)마다 검색되는 문서들의 특성이 다르기 때문에 이 임계값이 고정되어 있으면 삭제되어야하는 문서가 많이 남아있거나, 유용한 문서가 제거될 수 있습니다. 따라서 각 질의마다 문서들의 평균 점수를 임계값으로 설정하는 adaptive judge bar를 도입합니다. 이 점수는 평균값을 기준으로 τq − n · σ (n은 하이퍼파라미터)을 통해서 도출합니다.
Adaptive Judge bar

τq 값이 높을 때(예: 9.575)는 필터링 기준이 매우 엄격하게 작동한다. 이 경우 관련도가 충분히 높은 문서만 통과하기 때문에 결과적으로 핵심적인 문서만 남게 되며, 모델이 불필요한 정보를 혼동하지 않고 정확한 답변을 생성할 수 있다. 즉, 정밀도(precision)가 높아지는 방향으로 작용한다. 실제 사례에서도 τq가 높을 때 LLM은 정확히 정답(Santurce)을 생성했다.
τq 값이 낮을 때(예: -8.425)는 필터링이 매우 느슨해진다. 따라서 관련이 약한 문서까지 함께 남게 되지만, 그 안에 정답에 필요한 중요한 정보(Maniowy)가 포함되어 있을 가능성이 커진다. 이로 인해 재현율(recall)은 높아지며, 때때로 이런 완화된 필터링이 오히려 정확도를 개선하기도 한다.
τq가 중간 수준(예: 0.4875)일 때는 필터링 강도가 애매하게 작동하여, 관련 문서뿐 아니라 이름이 비슷하지만 실제로는 관계없는 문서들이 함께 남게 된다. 이런 경우 LLM은 혼동을 일으켜 잘못된 정보를 기반으로 답변을 내놓게 되고, 결과적으로 노이즈가 증가한다.
데이터셋
TriviaQA
PopQA
ARC-C (AI2 Reasoning Challenge - Challenge Set)
ASQA (Arabic Spoken Question Answering)

