RAG-Sequence: Top-k Approximation & Thorough Decoding

Doyeon Kim·2025년 10월 24일

🔍 개요

이 논문은 Retrieval-Augmented Generation (RAG) 모델의 효율성과 정확성을 개선하기 위해
Top-k 근사화(Approximation)철저한 디코딩(Thorough Decoding) 방법을 제안한 연구입니다.


🧩 1. RAG-Sequence의 기본 개념

  • RAG 모델은 입력 x에 대해 잠재 변수 z(검색된 문서)에 의존하는 출력을 생성합니다.

    • 정확한 확률식:
      ( p(y|x) = \sum{z∈D} pη(z|x)·p_θ(y|x,z) )
  • 하지만 전체 문서 집합 D(예: 위키피디아 전체)에 대해 합산하는 것은 비현실적입니다.


⚙️ 2. Top-k Approximation (상위 k개 문서 근사)

  • 핵심 아이디어:
    전체 문서 대신, 검색 확률 (pη(z|x)) 상위 k개 문서만 사용.
    [
    p(y|x) ≈ \sum
    {z∈top-k} pη(z|x)·pθ(y|x,z)
    ]

  • 근거:

    • 대부분의 확률 질량이 상위 몇 개 문서에 집중됨.
    • retriever(검색기)를 fine-tuning하여 상위 문서에 집중하도록 학습.
    • 경험적으로 효율성과 성능이 우수함.

🧮 3. 학습 과정 및 그래디언트 계산

  • 손실 함수는 근사화된 음의 로그 가능도:
    [
    L(x, y) = -\log \sum{z∈Z} pη(z|x)·p_θ(y|x,z)
    ]
  • 두 모델의 gradient를 함께 계산하여 retriever(pη)generator(pθ)end-to-end로 학습 가능.

🔄 4. 전체 파이프라인

  1. Retrieval:
    입력 x 인코딩 → 유사도 계산 → 상위 K 문서 선택
    → 각 문서에 대한 확률 (p_η(z_k|x)) 산출.
  2. Beam Search:
    문서별로 decoder 실행 → (p_θ(y|x, z_i)) 계산.
  3. Marginalization:
    문서별 확률을 가중 합하여 (p(y|x)) 계산.
  4. Selection:
    최종 답 (y^* = \arg\max_y p(y|x)) 선택.

🧠 5. 예시 (프랑스 수도 질문)

  • 질문: “What is the capital of France?”

  • 상위 3개 문서:

    • z₁: “Paris is the capital…” (0.73)
    • z₂: “Lyon is a major city…” (0.15)
    • z₃: “France, officially…” (0.12)
  • 각 문서의 beam search 결과를 결합하면,
    최종 확률 계산 결과 “Paris” 가 가장 높은 확률로 선택됨.


⚖️ 6. Thorough vs. Fast Decoding

구분설명장점단점
Thorough Decoding모든 후보를 문서 전체에 재평가 (정확한 주변화)정확도 높음계산량 많음
Fast Decoding문서별 beam 내에서만 평가빠름, 확장성 좋음정확도 약간 감소
  • 복잡도는 대략 O(k² × beam size) 수준.
    (모든 후보를 k개 문서에 대해 재평가하기 때문)

📊 7. 주요 결론

  • Top-k 근사화로 대규모 문서 집합에서도 계산 효율을 확보.
  • Thorough Decoding은 느리지만 더 정확한 결과를 제공.
  • Fast Decoding은 실시간 응용에 적합.
  • 두 접근법 모두 RAG의 품질–속도 트레이드오프를 조절하는 핵심 기법임.

요약하자면,
이 논문은 대규모 지식 기반에서의 RAG 모델 효율화와 정확도 향상을 위한
Top-k 근사화Thorough Decoding 전략을 수학적으로 정리하고,
그 성능 트레이드오프를 명확히 분석한 연구입니다.

0개의 댓글