InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering

하임·4일 전

RAG

목록 보기
20/20

업로드해주신 논문 「InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering」를 정리해드리겠습니다.


1. 연구 배경

  • LLM 한계: 환각(hallucination), 구식 지식, 근거 부족 등.
  • RAG의 문제: 검색된 문서가 실제로 답변 생성에 얼마나 기여하는지 판단하기 어렵고, 불필요하거나 오히려 혼란을 주는 문서가 포함되면 성능이 저하됩니다.
  • 기존 연구는 세 가지 방향으로 진행되었습니다:
    1. Retriever 최적화: 검색기 자체를 훈련하지만, 여러 retriever를 동시에 다루기는 어렵습니다.
    2. LLM 자기 반성(Self-reflection): LLM이 문서 유용성을 스스로 평가하지만, 계산 비용이 높습니다.
    3. Reranker 기반: 문서를 재정렬하지만, 주로 의미적 유사성만 고려해 실제 답변 기여도는 반영하지 못합니다.

2. 제안 방법: InfoGain-RAG

핵심은 문서 정보 이득(Document Information Gain, DIG)이라는 새로운 척도를 정의하고, 이를 바탕으로 멀티태스크 Reranker를 학습시켜 문서의 기여도를 평가하고 정렬하는 것입니다.

2.1 Document Information Gain (DIG)

  • 정의: 특정 문서 d가 주어졌을 때와 주어지지 않았을 때 LLM의 정답 생성 확신도(confidence) 차이입니다.
  • 수식:DIG(dx)=pϕ(yx,d)pϕ(yx)DIG(d∣x)=p_ϕ(y∣x,d)−p_ϕ(y∣x)
    • pϕ(yx,d)p_\phi(y|x,d): 문서를 포함했을 때의 정답 확률
    • pϕ(yx)p_\phi(y|x): 문서 없이 질문만으로의 정답 확률
  • 해석:
    • DIG > 0: 문서가 도움이 됨 → 유지/우선순위 ↑
    • DIG ≈ 0: 무관함 → 영향 없음
    • DIG < 0: 방해/혼란 → 필터링 대상

2.2 DIG 계산 보완

  • Sliding Window Smoothing: 길이 편향(length bias) 완화.
  • Token Importance Weighting: 초기 토큰에 더 높은 가중치 부여.

2.3 Multi-task Reranker

  • DIG 데이터를 기반으로 학습합니다.
  • 두 가지 손실을 결합합니다:
    1. Cross-Entropy Loss: 유용한 문서와 해로운 문서를 구분합니다.
    2. Margin Loss: DIG 크기에 따라 문서 간의 상대적 순서를 학습합니다.
  • 최종 손실:
    L=βLCE+(1β)LMarginL = \beta L_{CE} + (1-\beta)L_{Margin}

3. 실험

  • 데이터셋: TriviaQA, NaturalQA, PopQA (Open-domain QA), FM2 (사실 검증).
  • 모델: GPT-4o, Claude, ChatGPT 같은 상용 모델과 LLaMA, Qwen, Gemma, DeepSeek 등 오픈소스 모델.
  • 평가지표: Exact Match(EM) Accuracy.

3.1 주요 결과

  • 단일 retriever(Contriever) 실험에서:
    • Naive RAG 대비 최대 +17.9% EM 향상(NaturalQA, LLaMA3.1-405B).
    • 최신 reranker(GTE-7B)보다도 성능이 우수하며, 파라미터 수는 훨씬 적음(335M vs 7B).
  • 복수 retriever(Contriever + BM25 + DPR) 상황에서도 일관되게 우수한 성과를 보입니다.
  • Self-RAG, CRAG(자기 반성 기반) 및 RePlug, RADIT(retriever 최적화)보다도 더 뛰어난 성능을 보입니다.
  • Ablation 연구:
    • DIG 데이터 생성에 어떤 LLM을 사용해도 비슷한 성능 → 모델 불가지론적(agnostic).
    • Multi-task 학습 > 단일 CE/단일 Margin 학습.
    • Inference 단계의 문서 필터링(threshold=0.2)이 성능 향상에 도움을 줍니다.

4. 결론 및 의의

  • InfoGain-RAG는 정량적 지표(DIG)를 도입해 문서의 실제 기여도를 평가하고, 이를 학습한 reranker로 불필요한 문서 제거 및 유용한 문서 선별이 가능합니다.
  • 효율적(LLM 호출 최소화, 한 번만 필요)이고, 범용적(여러 retriever와 다양한 LLM에 적용 가능)입니다.
  • 성능: 상용·오픈소스 모델 모두에서 기존 reranking 기법 및 다른 RAG 개선 방법을 능가합니다.
  • 한계:
    • 현재는 텍스트 모달리티만 실험했습니다.
    • DIG는 문서의 사실적 오류(factual inaccuracy)를 직접 판별하지 못합니다.

👉 요약하자면, 이 논문은 “검색된 문서가 실제로 답변에 얼마나 기여하는지”DIG라는 새로운 척도로 수치화하고, 이를 바탕으로 멀티태스크 reranker를 학습시켜 효율적이고 효과적인 RAG 문서 선택·정렬 방법을 제안합니다.


profile
NLP 공부합니당

0개의 댓글