Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

하임·4일 전

RAG

목록 보기
16/20

이 논문 「Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study」는 다중 지식 소스를 활용하는 RAG(Retrieval-Augmented Generation) 환경에서 불필요하거나 혼란을 주는 정보를 줄이고, 정확한 지식 활용을 통해 환각(hallucination)을 감소시키는 PruningRAG 프레임워크를 제안하는 연구입니다.


🧠 1. 배경 및 문제의식

  • RAG는 외부 지식을 검색하여 LLM의 환각 문제를 줄이기 위한 방법으로 널리 사용됨.
  • 하지만 기존 RAG 연구는 단일 지식 소스(예: Wikipedia, 하나의 문서 corpus)에만 초점을 둠.
  • 실제 응용에서는 다양한 형식(구조화된 API, 비정형 웹페이지)다중 지식 소스가 사용되는데, 이를 처리할 수 있는 표준 데이터셋도 부족함.

🧩 2. 주요 기여

  1. 표준화된 다중 소스 RAG 벤치마크 데이터셋 구성 (CRAG 기반)
  2. 다중 단계 지식 정제 전략을 포함한 PruningRAG 프레임워크 제안
  3. 여러 RAG 방법들과 비교한 광범위 실험 및 정성적 분석 수행

🔧 3. PruningRAG 구성

PruningRAG는 다음과 같은 세 가지 주요 구성 요소로 이루어집니다:

3.1 Coarse-Grained Pruning (거친 수준 정제)

  • 질문 q에 대해 어떤 지식 소스들이 필요한지 판단
  • LLM 기반 분류기로 학습 → 쓸모없는 지식 소스를 제거함으로써 불필요한 정보 탐색 방지

3.2 Fine-Grained Pruning (정밀 수준 정제)

  • 선택된 지식 소스 내에서 BM25 → DPR 방식으로 관련 문서 및 문장 선택
  • 웹 페이지: BM25 → DPR로 문장 단위 정제
  • API 응답: NER로 관련 엔티티 추출 → 불필요한 JSON 필드 제거 후 자연어로 변환

🔍 4. Reasoning 향상

  • CoT(Chain-of-Thought) + ICL(In-Context Learning) 기반 프롬프트 사용
  • 예: 질문이 잘못된 경우 “invalid question” 출력, 모르면 “I don’t know” 출력
  • 다양한 도메인의 예시를 활용하여 과적합 방지

📊 5. 실험 결과 요약

주요 실험 결과 (Table 1 & 2)

  • PruningRAG 적용 시 정확도(Accuracy) 증가, 환각(Hallucination) 감소
  • 특히 5개 웹페이지 + API 조합일 때 효과 극대화 (정확도 44.56%, 환각 21.23%)
  • 작은 모델(LLaMA 3.2-1B)은 accuracy가 줄기도 했지만 hallucination은 크게 감소함

🔬 6. 세부 실험 분석

6.1 Coarse-Grained 효과

  • 내부 지식(LLM) + 외부 지식을 단순히 결합하는 방식은 충돌 유발 → pruning이 효과적
  • 질의에 따라 동적으로 소스를 선택하는 것이 중요

6.2 Fine-Grained 효과

  • Sparse → Dense 두 단계를 거치면 정확도는 유지되면서 속도 개선
  • 단일 Dense retrieval만 쓰면 성능은 좋지만 속도가 느릴 수 있음

6.3 Reasoning 분석

  • CoT는 웹페이지와 같이 잡음이 많은 데이터에 특히 효과적
  • API의 경우, CoT가 오히려 정확도를 낮출 수도 있음
  • Cross-domain ICL 예시는 성능을 일반화시켜 false premise를 더 잘 판별함

⚙️ 7. 하이퍼파라미터 영향 분석

  • Chunk size: 200~500이 가장 이상적 (너무 작으면 정보 부족, 너무 크면 관련성 희석)
  • Overlap: 큰 chunk일수록 적당한 중첩이 성능에 긍정적
  • Retrieved chunk 수: 너무 많으면 정확도보다 hallucination 증가 위험

📁 8. 데이터셋 상세 (CRAG 기반)

  • 4,409 QA pair (다양한 도메인 및 질문 유형 포함)
  • 각 QA 쌍에 대해 웹페이지 5개 또는 50개, JSON API 데이터 포함
  • 웹페이지: 정적인 일반 정보
  • API: 실시간 정량 정보 (예: 주가, 뉴스 등)

💡 9. 핵심 결론

  • 다중 지식 소스 상황에서, 정제 없는 단순 결합은 오히려 성능 저하 유발
  • Coarse + Fine-grained pruning이 결합된 PruningRAG는 정확도와 환각률 측면에서 모두 우수함
  • 프롬프트 설계 및 ICL 예시 선택도 reasoning 성능에 큰 영향을 미침

📌 향후 연구 제안

  • 더 많은 소스와 어노테이션된 지식을 포함한 데이터셋 확장
  • 소형 LLM에 맞춘 경량화된 pruning 전략 탐색

🔗 관련 링크


profile
NLP 공부합니당

0개의 댓글