https://arxiv.org/pdf/2507.22050
한눈에 보는 요약
- 문제의식: 멀티홉 질문에서 한 가지 소스/한 번의 RAG로는 충분치 않습니다. 서로 다른 형태·도메인의 지식을 단계적으로 “거르듯(sieving)” 모아야 정확도가 올라갑니다.
- 핵심 아이디어(프레임워크): 질의→분해(Decompose)→라우팅(Route)→관찰·리플렉션(Reflect)→융합(Fuse)의 4단계 파이프라인. 각 서브질의마다 “도구–코퍼스 쌍(tool–corpus pair)”을 선택해 검색/질의하고, 부족하면 경로를 바꿔 다시 시도합니다(알고리즘 1).
- 주요 성과: MuSiQue, 2WikiMultiHopQA, HotpotQA에서 평균 F1이 기존 RAG/에이전트 기법보다 높았고(DeepSeek-V3, GPT-4o 백본 공통), 특히 토큰 소모 대비 정확도가 우수합니다.
- 어블레이션: 모듈을 빼면 성능이 하락. 특히 Reflexion을 제거하면 2Wiki에서 F1 68.4→15.4로 급락, Decomposition 제거도 큰 손실입니다.
방법: 4단계 파이프라인 & 알고리즘 1
- Decompose: 복합 질의를 DAG 형태의 서브질의 집합으로 구조화(노드=원자적 추론 단위, 간선=의존성).
- Route: 각 서브질의 qiqi에 대해 도구–코퍼스 쌍 (Ti,Ci)(T_i, C_i)*을 LLM 라우터가 선택(도메인/포맷/프라이버시 등 소스 프로필** + 실패 이력 MfailM{fail}을 프롬프트로 인코딩).
- Retrieve & Reflect(관찰/리플렉션): 후보 답 aiai가 불충분하면 다른 소스로 재라우팅하여 재시도. 성공/실패는 **메모리 Msucc,MfailM{succ}, M_{fail}*로 관리해 중복 시도를 피하고, 최종 융합 때 신뢰 근거로 사용.
- Fuse: 모든 유효 서브답을 최종 답으로 집계. 알고리즘 1은 위 과정을 절차적으로 정리(반복적 재라우팅과 메모리 갱신 포함).
알고리즘 1 요지: 분해→(각 서브질의에 대해) 라우트→검색→리플렉션 시 재라우트→성공/실패 로그→융합 반환. 설정값에 따라 ‘라우팅/리플렉션 없는 RAG-only’로도 그레이스풀 디그레이드가 가능(모듈식 설계).
실험 설정(요지)
- 백본 LLM: DeepSeek-V3, GPT-4o 공통 사용(동일 디코딩 파라미터). 리트리버는 Naive RAG(all-MiniLM-L6-v2)와 GraphRAG 두 가지 설정으로 비교. 지표는 EM/F1과 총 LLM 토큰.
주요 결과
(1) 메인 성능 (RQ1/RQ4)
- DeepSieve(Naive RAG)가 MuSiQue/2Wiki에서 최고 F1(예: MuSiQue 46.8, 2Wiki 68.4)이며 평균 F1에서도 베이스라인을 상회. HotpotQA에서는 RAPTOR가 강하지만 평균은 DeepSieve가 앞섬.
(2) 에이전트/추론 기법과의 비교 (GPT-4o, HotpotQA)
- DeepSieve는 F1 49.3 / EM 61.7, 토큰 ~3.9K로, ReAct(9.8K), Reflexion(37.9K) 대비 적은 토큰으로 더 높은 정확도.
(3) 효율성 (RQ2)
- 3축(EM/F1/역-토큰) 레이더 플롯에서 DeepSieve가 가장 넓은 면적(정확도·비용의 균형 우수).
(4) 어블레이션 (RQ3)
- 어떤 모듈을 빼도 성능 하락. 특히 Reflexion 제거 시 2Wiki F1 68.4→15.4로 급락, Decomposition 제거도 MuSiQue에서 큰 손실. 단독 Routing만 쓰면 HotpotQA에선 미미/약간 하락하지만, D+Rt+Rf 조합에선 전반적 향상.
(5) 모듈성 & 이질 소스(예: SQL + RAG)
- 오라클(전문가) 라우팅 상한 대비, 실제 DeepSieve 라우터도 SQL/RAG 혼재 환경에서 실용적 성능을 달성(예: SQL 50.8|52.0, RAG 48.3|59.1). 이질적 소스는 병합 불가이므로 라우팅이 필수라는 점을 실험으로 확인.
왜 잘 되나? (설계 인사이트)
- 분해(계획의 명시화): DAG로 명시·해독 가능한 계획을 만들고, 이후 라우팅/리플렉션이 이 계획을 따라 적응적으로 수행됩니다.
- 라우팅(소스 프로필+실패 이력 활용): 각 서브질의에 최적의 도구–코퍼스를 고르고, 실패는 피하며 새 경로를 탐색합니다.
- 리플렉션(자기수정 루프): 불충분 근거를 감지하면 재라우팅으로 교정—정확도 향상에 매우 기여(어블레이션으로 검증).