Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models

하임·2026년 1월 9일

RAG

목록 보기

17/20

논문 "Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models"는 Google Cloud AI Research와 USC 연구팀이 공동으로 발표한 연구로, Retrieval-Augmented Generation(RAG)의 대표적인 문제인 불완전한 검색 결과와 내부/외부 지식 간 충돌 문제를 해결하고자 제안된 새로운 프레임워크 Astute RAG에 대해 다루고 있습니다.

📌 핵심 문제 인식

1. 불완전한 검색(Retrieval) 문제

검색 결과에 정답이 없거나 잘못된 정보, 혹은 노이즈가 포함되는 경우가 많음.
실제 실험에서 70% 이상의 검색 문서가 정답을 직접 포함하지 않음.
특히 PopQA에서는 절반이 정답을 포함하지 않음.

2. 내부 vs 외부 지식 간 충돌

LLM의 사전 학습된 내부 지식과 외부 검색된 지식이 충돌(conflict) 할 수 있음.
이런 경우 모델이 어느 쪽을 더 신뢰할지 판단하기 어려워짐.
실험에서 약 19.2%의 질문이 내부/외부 지식 간 충돌을 보임.

🧠 제안 방식: Astute RAG

주요 아이디어

LLM의 내부 지식과 검색된 외부 문서를 동시에 활용하여 보다 신뢰도 높은 응답을 생성.
내부/외부 지식이 서로 보완/검증/정제되도록 설계함.

전체 파이프라인 구조

Adaptive Internal Generation
- LLM 내부 지식 기반으로 관련 정보를 생성.
- 필요에 따라 적절한 수의 패시지를 생성(최대 수 제한 있음).
- Constitutional AI 원칙을 통해 정확성 및 신뢰도 강조.
Source-aware Knowledge Consolidation
- 외부와 내부 지식을 출처(source)를 표시하며 통합.
- 반복(iterative) 정제 과정을 통해 일관된 정보는 결합하고, 충돌 정보는 구분.
Answer Finalization
- 정보 신뢰도를 기반으로 정답 후보들 중에서 가장 믿을 수 있는 답변 선택.

📊 실험 결과

Claude 3.5 Sonnet 및 Gemini 1.5 Pro를 사용한 실험.
사용 데이터셋:
- NQ (일반 QA)
- TriviaQA (일반 QA)
- BioASQ (의료 도메인)
- PopQA (롱테일 지식)

Method	NQ	TriviaQA	BioASQ	PopQA	Overall
No RAG	47.12	81.98	50.35	29.78	54.51
Astute RAG (t=3)	53.56	84.45	62.24	44.94	62.86

Astute RAG만이 검색 문서가 모두 부정확한 worst-case 상황에서도 No RAG만큼 좋은 성능을 보임.

📌 주요 기여

현실적인 조건에서 RAG 문제점(불완전 검색, 지식 충돌) 체계적으로 분석.
Astute RAG 제안 → 내부 지식을 활용해 검색 오류를 보완.
다양한 LLM과 데이터셋에서 강인한 성능 입증.

✏️ 한 줄 요약

Astute RAG는 LLM의 내부 지식과 외부 검색 결과를 지능적으로 통합하여, 잘못된 검색 정보와 지식 충돌로 인한 문제를 해결하고, 신뢰할 수 있는 답변을 생성하는 새로운 RAG 프레임워크입니다.

하임

NLP 공부합니당

이전 포스트

Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

다음 포스트