Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

하임·2026년 1월 9일

RAG

목록 보기

16/20

이 논문 「Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study」는 다중 지식 소스를 활용하는 RAG(Retrieval-Augmented Generation) 환경에서 불필요하거나 혼란을 주는 정보를 줄이고, 정확한 지식 활용을 통해 환각(hallucination)을 감소시키는 PruningRAG 프레임워크를 제안하는 연구입니다.

🧠 1. 배경 및 문제의식

RAG는 외부 지식을 검색하여 LLM의 환각 문제를 줄이기 위한 방법으로 널리 사용됨.
하지만 기존 RAG 연구는 단일 지식 소스(예: Wikipedia, 하나의 문서 corpus)에만 초점을 둠.
실제 응용에서는 다양한 형식(구조화된 API, 비정형 웹페이지)의 다중 지식 소스가 사용되는데, 이를 처리할 수 있는 표준 데이터셋도 부족함.

🧩 2. 주요 기여

표준화된 다중 소스 RAG 벤치마크 데이터셋 구성 (CRAG 기반)
다중 단계 지식 정제 전략을 포함한 PruningRAG 프레임워크 제안
여러 RAG 방법들과 비교한 광범위 실험 및 정성적 분석 수행

🔧 3. PruningRAG 구성

PruningRAG는 다음과 같은 세 가지 주요 구성 요소로 이루어집니다:

3.1 Coarse-Grained Pruning (거친 수준 정제)

질문 q에 대해 어떤 지식 소스들이 필요한지 판단
LLM 기반 분류기로 학습 → 쓸모없는 지식 소스를 제거함으로써 불필요한 정보 탐색 방지

3.2 Fine-Grained Pruning (정밀 수준 정제)

선택된 지식 소스 내에서 BM25 → DPR 방식으로 관련 문서 및 문장 선택
웹 페이지: BM25 → DPR로 문장 단위 정제
API 응답: NER로 관련 엔티티 추출 → 불필요한 JSON 필드 제거 후 자연어로 변환

🔍 4. Reasoning 향상

CoT(Chain-of-Thought) + ICL(In-Context Learning) 기반 프롬프트 사용
예: 질문이 잘못된 경우 “invalid question” 출력, 모르면 “I don’t know” 출력
다양한 도메인의 예시를 활용하여 과적합 방지

📊 5. 실험 결과 요약

주요 실험 결과 (Table 1 & 2)

PruningRAG 적용 시 정확도(Accuracy) 증가, 환각(Hallucination) 감소
특히 5개 웹페이지 + API 조합일 때 효과 극대화 (정확도 44.56%, 환각 21.23%)
작은 모델(LLaMA 3.2-1B)은 accuracy가 줄기도 했지만 hallucination은 크게 감소함

🔬 6. 세부 실험 분석

6.1 Coarse-Grained 효과

내부 지식(LLM) + 외부 지식을 단순히 결합하는 방식은 충돌 유발 → pruning이 효과적
질의에 따라 동적으로 소스를 선택하는 것이 중요

6.2 Fine-Grained 효과

Sparse → Dense 두 단계를 거치면 정확도는 유지되면서 속도 개선
단일 Dense retrieval만 쓰면 성능은 좋지만 속도가 느릴 수 있음

6.3 Reasoning 분석

CoT는 웹페이지와 같이 잡음이 많은 데이터에 특히 효과적
API의 경우, CoT가 오히려 정확도를 낮출 수도 있음
Cross-domain ICL 예시는 성능을 일반화시켜 false premise를 더 잘 판별함

⚙️ 7. 하이퍼파라미터 영향 분석

Chunk size: 200~500이 가장 이상적 (너무 작으면 정보 부족, 너무 크면 관련성 희석)
Overlap: 큰 chunk일수록 적당한 중첩이 성능에 긍정적
Retrieved chunk 수: 너무 많으면 정확도보다 hallucination 증가 위험

📁 8. 데이터셋 상세 (CRAG 기반)

총 4,409 QA pair (다양한 도메인 및 질문 유형 포함)
각 QA 쌍에 대해 웹페이지 5개 또는 50개, JSON API 데이터 포함
웹페이지: 정적인 일반 정보
API: 실시간 정량 정보 (예: 주가, 뉴스 등)

💡 9. 핵심 결론

다중 지식 소스 상황에서, 정제 없는 단순 결합은 오히려 성능 저하 유발
Coarse + Fine-grained pruning이 결합된 PruningRAG는 정확도와 환각률 측면에서 모두 우수함
프롬프트 설계 및 ICL 예시 선택도 reasoning 성능에 큰 영향을 미침

📌 향후 연구 제안

더 많은 소스와 어노테이션된 지식을 포함한 데이터셋 확장
소형 LLM에 맞춘 경량화된 pruning 전략 탐색

🔗 관련 링크

📂 데이터 및 코드: https://github.com/USTCAGI/PruningRAG

하임

NLP 공부합니당

이전 포스트

AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation

다음 포스트