업로드해주신 논문 「InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering」를 정리해드리겠습니다.
1. 연구 배경
- LLM 한계: 환각(hallucination), 구식 지식, 근거 부족 등.
- RAG의 문제: 검색된 문서가 실제로 답변 생성에 얼마나 기여하는지 판단하기 어렵고, 불필요하거나 오히려 혼란을 주는 문서가 포함되면 성능이 저하됩니다.
- 기존 연구는 세 가지 방향으로 진행되었습니다:
- Retriever 최적화: 검색기 자체를 훈련하지만, 여러 retriever를 동시에 다루기는 어렵습니다.
- LLM 자기 반성(Self-reflection): LLM이 문서 유용성을 스스로 평가하지만, 계산 비용이 높습니다.
- Reranker 기반: 문서를 재정렬하지만, 주로 의미적 유사성만 고려해 실제 답변 기여도는 반영하지 못합니다.
2. 제안 방법: InfoGain-RAG
핵심은 문서 정보 이득(Document Information Gain, DIG)이라는 새로운 척도를 정의하고, 이를 바탕으로 멀티태스크 Reranker를 학습시켜 문서의 기여도를 평가하고 정렬하는 것입니다.
- 정의: 특정 문서 d가 주어졌을 때와 주어지지 않았을 때 LLM의 정답 생성 확신도(confidence) 차이입니다.
- 수식:DIG(d∣x)=pϕ(y∣x,d)−pϕ(y∣x)
- pϕ(y∣x,d): 문서를 포함했을 때의 정답 확률
- pϕ(y∣x): 문서 없이 질문만으로의 정답 확률
- 해석:
- DIG > 0: 문서가 도움이 됨 → 유지/우선순위 ↑
- DIG ≈ 0: 무관함 → 영향 없음
- DIG < 0: 방해/혼란 → 필터링 대상
2.2 DIG 계산 보완
- Sliding Window Smoothing: 길이 편향(length bias) 완화.
- Token Importance Weighting: 초기 토큰에 더 높은 가중치 부여.
2.3 Multi-task Reranker
- DIG 데이터를 기반으로 학습합니다.
- 두 가지 손실을 결합합니다:
- Cross-Entropy Loss: 유용한 문서와 해로운 문서를 구분합니다.
- Margin Loss: DIG 크기에 따라 문서 간의 상대적 순서를 학습합니다.
- 최종 손실:
L=βLCE+(1−β)LMargin
3. 실험
- 데이터셋: TriviaQA, NaturalQA, PopQA (Open-domain QA), FM2 (사실 검증).
- 모델: GPT-4o, Claude, ChatGPT 같은 상용 모델과 LLaMA, Qwen, Gemma, DeepSeek 등 오픈소스 모델.
- 평가지표: Exact Match(EM) Accuracy.
3.1 주요 결과
- 단일 retriever(Contriever) 실험에서:
- Naive RAG 대비 최대 +17.9% EM 향상(NaturalQA, LLaMA3.1-405B).
- 최신 reranker(GTE-7B)보다도 성능이 우수하며, 파라미터 수는 훨씬 적음(335M vs 7B).
- 복수 retriever(Contriever + BM25 + DPR) 상황에서도 일관되게 우수한 성과를 보입니다.
- Self-RAG, CRAG(자기 반성 기반) 및 RePlug, RADIT(retriever 최적화)보다도 더 뛰어난 성능을 보입니다.
- Ablation 연구:
- DIG 데이터 생성에 어떤 LLM을 사용해도 비슷한 성능 → 모델 불가지론적(agnostic).
- Multi-task 학습 > 단일 CE/단일 Margin 학습.
- Inference 단계의 문서 필터링(threshold=0.2)이 성능 향상에 도움을 줍니다.
4. 결론 및 의의
- InfoGain-RAG는 정량적 지표(DIG)를 도입해 문서의 실제 기여도를 평가하고, 이를 학습한 reranker로 불필요한 문서 제거 및 유용한 문서 선별이 가능합니다.
- 효율적(LLM 호출 최소화, 한 번만 필요)이고, 범용적(여러 retriever와 다양한 LLM에 적용 가능)입니다.
- 성능: 상용·오픈소스 모델 모두에서 기존 reranking 기법 및 다른 RAG 개선 방법을 능가합니다.
- 한계:
- 현재는 텍스트 모달리티만 실험했습니다.
- DIG는 문서의 사실적 오류(factual inaccuracy)를 직접 판별하지 못합니다.
👉 요약하자면, 이 논문은 “검색된 문서가 실제로 답변에 얼마나 기여하는지”를 DIG라는 새로운 척도로 수치화하고, 이를 바탕으로 멀티태스크 reranker를 학습시켜 효율적이고 효과적인 RAG 문서 선택·정렬 방법을 제안합니다.