이 논문 「Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study」는 다중 지식 소스를 활용하는 RAG(Retrieval-Augmented Generation) 환경에서 불필요하거나 혼란을 주는 정보를 줄이고, 정확한 지식 활용을 통해 환각(hallucination)을 감소시키는 PruningRAG 프레임워크를 제안하는 연구입니다.
🧠 1. 배경 및 문제의식
- RAG는 외부 지식을 검색하여 LLM의 환각 문제를 줄이기 위한 방법으로 널리 사용됨.
- 하지만 기존 RAG 연구는 단일 지식 소스(예: Wikipedia, 하나의 문서 corpus)에만 초점을 둠.
- 실제 응용에서는 다양한 형식(구조화된 API, 비정형 웹페이지)의 다중 지식 소스가 사용되는데, 이를 처리할 수 있는 표준 데이터셋도 부족함.
🧩 2. 주요 기여
- 표준화된 다중 소스 RAG 벤치마크 데이터셋 구성 (CRAG 기반)
- 다중 단계 지식 정제 전략을 포함한 PruningRAG 프레임워크 제안
- 여러 RAG 방법들과 비교한 광범위 실험 및 정성적 분석 수행
🔧 3. PruningRAG 구성
PruningRAG는 다음과 같은 세 가지 주요 구성 요소로 이루어집니다:
3.1 Coarse-Grained Pruning (거친 수준 정제)
- 질문 q에 대해 어떤 지식 소스들이 필요한지 판단
- LLM 기반 분류기로 학습 → 쓸모없는 지식 소스를 제거함으로써 불필요한 정보 탐색 방지
3.2 Fine-Grained Pruning (정밀 수준 정제)
- 선택된 지식 소스 내에서 BM25 → DPR 방식으로 관련 문서 및 문장 선택
- 웹 페이지: BM25 → DPR로 문장 단위 정제
- API 응답: NER로 관련 엔티티 추출 → 불필요한 JSON 필드 제거 후 자연어로 변환
🔍 4. Reasoning 향상
- CoT(Chain-of-Thought) + ICL(In-Context Learning) 기반 프롬프트 사용
- 예: 질문이 잘못된 경우 “invalid question” 출력, 모르면 “I don’t know” 출력
- 다양한 도메인의 예시를 활용하여 과적합 방지
📊 5. 실험 결과 요약
주요 실험 결과 (Table 1 & 2)
- PruningRAG 적용 시 정확도(Accuracy) 증가, 환각(Hallucination) 감소
- 특히 5개 웹페이지 + API 조합일 때 효과 극대화 (정확도 44.56%, 환각 21.23%)
- 작은 모델(LLaMA 3.2-1B)은 accuracy가 줄기도 했지만 hallucination은 크게 감소함
🔬 6. 세부 실험 분석
6.1 Coarse-Grained 효과
- 내부 지식(LLM) + 외부 지식을 단순히 결합하는 방식은 충돌 유발 → pruning이 효과적
- 질의에 따라 동적으로 소스를 선택하는 것이 중요
6.2 Fine-Grained 효과
- Sparse → Dense 두 단계를 거치면 정확도는 유지되면서 속도 개선
- 단일 Dense retrieval만 쓰면 성능은 좋지만 속도가 느릴 수 있음
6.3 Reasoning 분석
- CoT는 웹페이지와 같이 잡음이 많은 데이터에 특히 효과적
- API의 경우, CoT가 오히려 정확도를 낮출 수도 있음
- Cross-domain ICL 예시는 성능을 일반화시켜 false premise를 더 잘 판별함
⚙️ 7. 하이퍼파라미터 영향 분석
- Chunk size: 200~500이 가장 이상적 (너무 작으면 정보 부족, 너무 크면 관련성 희석)
- Overlap: 큰 chunk일수록 적당한 중첩이 성능에 긍정적
- Retrieved chunk 수: 너무 많으면 정확도보다 hallucination 증가 위험
📁 8. 데이터셋 상세 (CRAG 기반)
- 총 4,409 QA pair (다양한 도메인 및 질문 유형 포함)
- 각 QA 쌍에 대해 웹페이지 5개 또는 50개, JSON API 데이터 포함
- 웹페이지: 정적인 일반 정보
- API: 실시간 정량 정보 (예: 주가, 뉴스 등)
💡 9. 핵심 결론
- 다중 지식 소스 상황에서, 정제 없는 단순 결합은 오히려 성능 저하 유발
- Coarse + Fine-grained pruning이 결합된 PruningRAG는 정확도와 환각률 측면에서 모두 우수함
- 프롬프트 설계 및 ICL 예시 선택도 reasoning 성능에 큰 영향을 미침
📌 향후 연구 제안
- 더 많은 소스와 어노테이션된 지식을 포함한 데이터셋 확장
- 소형 LLM에 맞춘 경량화된 pruning 전략 탐색
🔗 관련 링크