DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

하임·2026년 1월 9일

Routing

목록 보기

36/44

문제의식: 멀티홉 질문에서 한 가지 소스/한 번의 RAG로는 충분치 않습니다. 서로 다른 형태·도메인의 지식을 단계적으로 “거르듯(sieving)” 모아야 정확도가 올라갑니다.
핵심 아이디어(프레임워크): 질의→분해(Decompose)→라우팅(Route)→관찰·리플렉션(Reflect)→융합(Fuse)의 4단계 파이프라인. 각 서브질의마다 “도구–코퍼스 쌍(tool–corpus pair)”을 선택해 검색/질의하고, 부족하면 경로를 바꿔 다시 시도합니다(알고리즘 1).
주요 성과: MuSiQue, 2WikiMultiHopQA, HotpotQA에서 평균 F1이 기존 RAG/에이전트 기법보다 높았고(DeepSeek-V3, GPT-4o 백본 공통), 특히 토큰 소모 대비 정확도가 우수합니다.
어블레이션: 모듈을 빼면 성능이 하락. 특히 Reflexion을 제거하면 2Wiki에서 F1 68.4→15.4로 급락, Decomposition 제거도 큰 손실입니다.

Decompose: 복합 질의를 DAG 형태의 서브질의 집합으로 구조화(노드=원자적 추론 단위, 간선=의존성).
Route: 각 서브질의 qiqi에 대해 도구–코퍼스 쌍 (Ti,Ci)(T_i, C_i)*을 LLM 라우터가 선택(도메인/포맷/프라이버시 등 소스 프로필** + 실패 이력 MfailM{fail}을 프롬프트로 인코딩).
Retrieve & Reflect(관찰/리플렉션): 후보 답 aiai가 불충분하면 다른 소스로 재라우팅하여 재시도. 성공/실패는 **메모리 Msucc,MfailM{succ}, M_{fail}*로 관리해 중복 시도를 피하고, 최종 융합 때 신뢰 근거로 사용.
Fuse: 모든 유효 서브답을 최종 답으로 집계. 알고리즘 1은 위 과정을 절차적으로 정리(반복적 재라우팅과 메모리 갱신 포함).

알고리즘 1 요지: 분해→(각 서브질의에 대해) 라우트→검색→리플렉션 시 재라우트→성공/실패 로그→융합 반환. 설정값에 따라 ‘라우팅/리플렉션 없는 RAG-only’로도 그레이스풀 디그레이드가 가능(모듈식 설계).

백본 LLM: DeepSeek-V3, GPT-4o 공통 사용(동일 디코딩 파라미터). 리트리버는 Naive RAG(all-MiniLM-L6-v2)와 GraphRAG 두 가지 설정으로 비교. 지표는 EM/F1과 총 LLM 토큰.

(1) 메인 성능 (RQ1/RQ4)

DeepSieve(Naive RAG)가 MuSiQue/2Wiki에서 최고 F1(예: MuSiQue 46.8, 2Wiki 68.4)이며 평균 F1에서도 베이스라인을 상회. HotpotQA에서는 RAPTOR가 강하지만 평균은 DeepSieve가 앞섬.

(2) 에이전트/추론 기법과의 비교 (GPT-4o, HotpotQA)

DeepSieve는 F1 49.3 / EM 61.7, 토큰 ~3.9K로, ReAct(9.8K), Reflexion(37.9K) 대비 적은 토큰으로 더 높은 정확도.

(3) 효율성 (RQ2)

(4) 어블레이션 (RQ3)

어떤 모듈을 빼도 성능 하락. 특히 Reflexion 제거 시 2Wiki F1 68.4→15.4로 급락, Decomposition 제거도 MuSiQue에서 큰 손실. 단독 Routing만 쓰면 HotpotQA에선 미미/약간 하락하지만, D+Rt+Rf 조합에선 전반적 향상.

(5) 모듈성 & 이질 소스(예: SQL + RAG)

오라클(전문가) 라우팅 상한 대비, 실제 DeepSieve 라우터도 SQL/RAG 혼재 환경에서 실용적 성능을 달성(예: SQL 50.8|52.0, RAG 48.3|59.1). 이질적 소스는 병합 불가이므로 라우팅이 필수라는 점을 실험으로 확인.

NLP 공부합니당