논문 "Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models"는 Google Cloud AI Research와 USC 연구팀이 공동으로 발표한 연구로, Retrieval-Augmented Generation(RAG)의 대표적인 문제인 불완전한 검색 결과와 내부/외부 지식 간 충돌 문제를 해결하고자 제안된 새로운 프레임워크 Astute RAG에 대해 다루고 있습니다.
📌 핵심 문제 인식
1. 불완전한 검색(Retrieval) 문제
- 검색 결과에 정답이 없거나 잘못된 정보, 혹은 노이즈가 포함되는 경우가 많음.
- 실제 실험에서 70% 이상의 검색 문서가 정답을 직접 포함하지 않음.
- 특히 PopQA에서는 절반이 정답을 포함하지 않음.
2. 내부 vs 외부 지식 간 충돌
- LLM의 사전 학습된 내부 지식과 외부 검색된 지식이 충돌(conflict) 할 수 있음.
- 이런 경우 모델이 어느 쪽을 더 신뢰할지 판단하기 어려워짐.
- 실험에서 약 19.2%의 질문이 내부/외부 지식 간 충돌을 보임.
🧠 제안 방식: Astute RAG
주요 아이디어
- LLM의 내부 지식과 검색된 외부 문서를 동시에 활용하여 보다 신뢰도 높은 응답을 생성.
- 내부/외부 지식이 서로 보완/검증/정제되도록 설계함.
전체 파이프라인 구조
- Adaptive Internal Generation
- LLM 내부 지식 기반으로 관련 정보를 생성.
- 필요에 따라 적절한 수의 패시지를 생성(최대 수 제한 있음).
- Constitutional AI 원칙을 통해 정확성 및 신뢰도 강조.
- Source-aware Knowledge Consolidation
- 외부와 내부 지식을 출처(source)를 표시하며 통합.
- 반복(iterative) 정제 과정을 통해 일관된 정보는 결합하고, 충돌 정보는 구분.
- Answer Finalization
- 정보 신뢰도를 기반으로 정답 후보들 중에서 가장 믿을 수 있는 답변 선택.
📊 실험 결과
- Claude 3.5 Sonnet 및 Gemini 1.5 Pro를 사용한 실험.
- 사용 데이터셋:
- NQ (일반 QA)
- TriviaQA (일반 QA)
- BioASQ (의료 도메인)
- PopQA (롱테일 지식)
| Method | NQ | TriviaQA | BioASQ | PopQA | Overall |
|---|
| No RAG | 47.12 | 81.98 | 50.35 | 29.78 | 54.51 |
| Astute RAG (t=3) | 53.56 | 84.45 | 62.24 | 44.94 | 62.86 |
- Astute RAG만이 검색 문서가 모두 부정확한 worst-case 상황에서도 No RAG만큼 좋은 성능을 보임.
📌 주요 기여
- 현실적인 조건에서 RAG 문제점(불완전 검색, 지식 충돌) 체계적으로 분석.
- Astute RAG 제안 → 내부 지식을 활용해 검색 오류를 보완.
- 다양한 LLM과 데이터셋에서 강인한 성능 입증.
✏️ 한 줄 요약
Astute RAG는 LLM의 내부 지식과 외부 검색 결과를 지능적으로 통합하여, 잘못된 검색 정보와 지식 충돌로 인한 문제를 해결하고, 신뢰할 수 있는 답변을 생성하는 새로운 RAG 프레임워크입니다.