InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering

하임·2026년 1월 9일

RAG

목록 보기

20/20

업로드해주신 논문 「InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering」를 정리해드리겠습니다.

LLM 한계: 환각(hallucination), 구식 지식, 근거 부족 등.
RAG의 문제: 검색된 문서가 실제로 답변 생성에 얼마나 기여하는지 판단하기 어렵고, 불필요하거나 오히려 혼란을 주는 문서가 포함되면 성능이 저하됩니다.
기존 연구는 세 가지 방향으로 진행되었습니다:
1. Retriever 최적화: 검색기 자체를 훈련하지만, 여러 retriever를 동시에 다루기는 어렵습니다.
2. LLM 자기 반성(Self-reflection): LLM이 문서 유용성을 스스로 평가하지만, 계산 비용이 높습니다.
3. Reranker 기반: 문서를 재정렬하지만, 주로 의미적 유사성만 고려해 실제 답변 기여도는 반영하지 못합니다.

핵심은 문서 정보 이득(Document Information Gain, DIG)이라는 새로운 척도를 정의하고, 이를 바탕으로 멀티태스크 Reranker를 학습시켜 문서의 기여도를 평가하고 정렬하는 것입니다.

정의: 특정 문서 d가 주어졌을 때와 주어지지 않았을 때 LLM의 정답 생성 확신도(confidence) 차이입니다.
수식: $DIG(d∣x)=p_ϕ(y∣x,d)−p_ϕ(y∣x)$
- $p_\phi(y|x,d)$ : 문서를 포함했을 때의 정답 확률
- $p_\phi(y|x)$ : 문서 없이 질문만으로의 정답 확률
해석:
- DIG > 0: 문서가 도움이 됨 → 유지/우선순위 ↑
- DIG ≈ 0: 무관함 → 영향 없음
- DIG < 0: 방해/혼란 → 필터링 대상

DIG 데이터를 기반으로 학습합니다.
두 가지 손실을 결합합니다:
1. Cross-Entropy Loss: 유용한 문서와 해로운 문서를 구분합니다.
2. Margin Loss: DIG 크기에 따라 문서 간의 상대적 순서를 학습합니다.
최종 손실:
$L = \beta L_{CE} + (1-\beta)L_{Margin}$

단일 retriever(Contriever) 실험에서:
- Naive RAG 대비 최대 +17.9% EM 향상(NaturalQA, LLaMA3.1-405B).
- 최신 reranker(GTE-7B)보다도 성능이 우수하며, 파라미터 수는 훨씬 적음(335M vs 7B).
복수 retriever(Contriever + BM25 + DPR) 상황에서도 일관되게 우수한 성과를 보입니다.
Self-RAG, CRAG(자기 반성 기반) 및 RePlug, RADIT(retriever 최적화)보다도 더 뛰어난 성능을 보입니다.
Ablation 연구:
- DIG 데이터 생성에 어떤 LLM을 사용해도 비슷한 성능 → 모델 불가지론적(agnostic).
- Multi-task 학습 > 단일 CE/단일 Margin 학습.
- Inference 단계의 문서 필터링(threshold=0.2)이 성능 향상에 도움을 줍니다.

InfoGain-RAG는 정량적 지표(DIG)를 도입해 문서의 실제 기여도를 평가하고, 이를 학습한 reranker로 불필요한 문서 제거 및 유용한 문서 선별이 가능합니다.
효율적(LLM 호출 최소화, 한 번만 필요)이고, 범용적(여러 retriever와 다양한 LLM에 적용 가능)입니다.
성능: 상용·오픈소스 모델 모두에서 기존 reranking 기법 및 다른 RAG 개선 방법을 능가합니다.
한계:
- 현재는 텍스트 모달리티만 실험했습니다.
- DIG는 문서의 사실적 오류(factual inaccuracy)를 직접 판별하지 못합니다.

👉 요약하자면, 이 논문은 “검색된 문서가 실제로 답변에 얼마나 기여하는지”를 DIG라는 새로운 척도로 수치화하고, 이를 바탕으로 멀티태스크 reranker를 학습시켜 효율적이고 효과적인 RAG 문서 선택·정렬 방법을 제안합니다.

NLP 공부합니당