이 논문은 Retrieval-Augmented Generation (RAG) 모델의 효율성과 정확성을 개선하기 위해
Top-k 근사화(Approximation) 와 철저한 디코딩(Thorough Decoding) 방법을 제안한 연구입니다.
RAG 모델은 입력 x에 대해 잠재 변수 z(검색된 문서)에 의존하는 출력을 생성합니다.
하지만 전체 문서 집합 D(예: 위키피디아 전체)에 대해 합산하는 것은 비현실적입니다.
핵심 아이디어:
전체 문서 대신, 검색 확률 (pη(z|x)) 상위 k개 문서만 사용.
[
p(y|x) ≈ \sum{z∈top-k} pη(z|x)·pθ(y|x,z)
]
근거:
질문: “What is the capital of France?”
상위 3개 문서:
각 문서의 beam search 결과를 결합하면,
최종 확률 계산 결과 “Paris” 가 가장 높은 확률로 선택됨.
| 구분 | 설명 | 장점 | 단점 |
|---|---|---|---|
| Thorough Decoding | 모든 후보를 문서 전체에 재평가 (정확한 주변화) | 정확도 높음 | 계산량 많음 |
| Fast Decoding | 문서별 beam 내에서만 평가 | 빠름, 확장성 좋음 | 정확도 약간 감소 |
요약하자면,
이 논문은 대규모 지식 기반에서의 RAG 모델 효율화와 정확도 향상을 위한
Top-k 근사화와 Thorough Decoding 전략을 수학적으로 정리하고,
그 성능 트레이드오프를 명확히 분석한 연구입니다.