RAG-Sequence: Top-k Approximation & Thorough Decoding

Doyeon Kim·2025년 10월 24일

🔍 개요

이 논문은 Retrieval-Augmented Generation (RAG) 모델의 효율성과 정확성을 개선하기 위해
Top-k 근사화(Approximation) 와 철저한 디코딩(Thorough Decoding) 방법을 제안한 연구입니다.

🧩 1. RAG-Sequence의 기본 개념

RAG 모델은 입력 x에 대해 잠재 변수 z(검색된 문서)에 의존하는 출력을 생성합니다.
- 정확한 확률식:
  ( p(y|x) = \sum{z∈D} pη(z|x)·p_θ(y|x,z) )
하지만 전체 문서 집합 D(예: 위키피디아 전체)에 대해 합산하는 것은 비현실적입니다.

⚙️ 2. Top-k Approximation (상위 k개 문서 근사)

핵심 아이디어:
전체 문서 대신, 검색 확률 (pη(z|x)) 상위 k개 문서만 사용.
[
p(y|x) ≈ \sum{z∈top-k} pη(z|x)·pθ(y|x,z)
]
근거:
- 대부분의 확률 질량이 상위 몇 개 문서에 집중됨.
- retriever(검색기)를 fine-tuning하여 상위 문서에 집중하도록 학습.
- 경험적으로 효율성과 성능이 우수함.

🧮 3. 학습 과정 및 그래디언트 계산

손실 함수는 근사화된 음의 로그 가능도:
[
L(x, y) = -\log \sum{z∈Z} pη(z|x)·p_θ(y|x,z)
]
두 모델의 gradient를 함께 계산하여 retriever(pη) 와 generator(pθ) 를 end-to-end로 학습 가능.

🔄 4. 전체 파이프라인

Retrieval:
입력 x 인코딩 → 유사도 계산 → 상위 K 문서 선택
→ 각 문서에 대한 확률 (p_η(z_k|x)) 산출.
Beam Search:
문서별로 decoder 실행 → (p_θ(y|x, z_i)) 계산.
Marginalization:
문서별 확률을 가중 합하여 (p(y|x)) 계산.
Selection:
최종 답 (y^* = \arg\max_y p(y|x)) 선택.

🧠 5. 예시 (프랑스 수도 질문)

질문: “What is the capital of France?”
상위 3개 문서:
- z₁: “Paris is the capital…” (0.73)
- z₂: “Lyon is a major city…” (0.15)
- z₃: “France, officially…” (0.12)
각 문서의 beam search 결과를 결합하면,
최종 확률 계산 결과 “Paris” 가 가장 높은 확률로 선택됨.

⚖️ 6. Thorough vs. Fast Decoding

구분	설명	장점	단점
Thorough Decoding	모든 후보를 문서 전체에 재평가 (정확한 주변화)	정확도 높음	계산량 많음
Fast Decoding	문서별 beam 내에서만 평가	빠름, 확장성 좋음	정확도 약간 감소

복잡도는 대략 O(k² × beam size) 수준.
(모든 후보를 k개 문서에 대해 재평가하기 때문)

📊 7. 주요 결론

Top-k 근사화로 대규모 문서 집합에서도 계산 효율을 확보.
Thorough Decoding은 느리지만 더 정확한 결과를 제공.
Fast Decoding은 실시간 응용에 적합.
두 접근법 모두 RAG의 품질–속도 트레이드오프를 조절하는 핵심 기법임.

요약하자면,
이 논문은 대규모 지식 기반에서의 RAG 모델 효율화와 정확도 향상을 위한
Top-k 근사화와 Thorough Decoding 전략을 수학적으로 정리하고,
그 성능 트레이드오프를 명확히 분석한 연구입니다.

이전 포스트

Knowledge Graph와 Ontology 차이점

다음 포스트

Graph RAG

0개의 댓글