AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation

하임·4일 전

RAG

목록 보기
15/20

https://arxiv.org/pdf/2406.19251

논문 "AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation"은 LLM 기반의 RAG(Retrieval-Augmented Generation) 시스템에서 하이퍼파라미터를 온라인 환경에서 자동으로 튜닝하는 방법을 제안한 최신 연구입니다.


🧠 논문 요약

🔍 배경

  • LLM이 발전하면서 다양한 응용에서 Retrieval-Augmented Generation (RAG)이 널리 사용됨.
  • 하지만 RAG는 top-k, embedding model, prompt compression ratio많은 하이퍼파라미터를 가지며, 최적 세팅을 찾는 것이 어렵고 시간 소모가 큼.
  • 온라인 시스템에서는 사용자의 피드백을 반영해 실시간으로 튜닝하는 것이 이상적.

🎯 연구 목표

  • 하이퍼파라미터 튜닝을 Multi-Armed Bandit (MAB) 문제로 모델링.
  • Hierarchical MAB (Hier-MAB) 라는 2단계 구조를 제안하여 다수의 하이퍼파라미터를 효율적으로 탐색.

🧪 방법론

📌 문제 정의

  • 각 하이퍼파라미터 조합을 MAB의 arm으로 보고, 반복적으로 선택하며 reward (정확도 vs 비용)를 관찰.
  • 보상 함수 예시: Reward=waccuracy(1w)token lengthtmax\text{Reward} = w \cdot \text{accuracy} - (1-w) \cdot \frac{\text{token length}}{t_{max}}
    • w=0.9: 정확도 중심, w=0.1: 비용 중심

🧩 두 단계 MAB 구조 (Hier-MAB)

  1. 상위 MAB: 어떤 하이퍼파라미터(예: top-k, embedding, compression ratio)를 튜닝할지 선택
  2. 하위 MAB: 선택된 하이퍼파라미터 내에서 값 선택 (예: top-k=3)
  • 이렇게 하면 탐색 공간의 차원을 줄이고, 빠른 수렴과 탐색의 균형을 잡을 수 있음.

📊 실험

📁 데이터셋

  • ALCE-ASQA, Natural Questions (NQ): QA 형식 데이터셋
  • 각 질문마다 문서 청크가 존재함

🔧 실험 설정

  • 튜닝 대상 하이퍼파라미터:
    • top-k: [1, 3, 5, 7, 9]
    • compression ratio C: [0.3, 0.5, 0.7, 0.9, 1.0]
    • embedding model: [mpnet, ada_002, contriever]
  • reward 조절 가중치 w: [0.1, 0.5, 0.9]

📈 성능 측정

  • Recall@3 (2개 하이퍼파라미터 튜닝)
  • Recall@5 (3개 튜닝)
  • Ground-truth는 Grid Search로 도출

🔍 결과 및 분석

🎯 주요 결과

  • Hier-UCB가 모든 기준에서 가장 빠르게 수렴하며 가장 높은 Recall을 기록 (특히 중간 난이도에서 탁월).
  • Grid Search 대비 LLM API 호출량 80% 감소 (20%만 사용).
  • w 값에 따라 문제 난이도가 다름:
    • w=0.1: 쉽고 탐색이 빠름
    • w=0.9: 정확도 중심이지만 최적값 군이 평평해서 탐색이 어려움

⚙️ Ablation 실험

  • αh=1.5, αl=0.5일 때 가장 빠른 수렴 (상위는 탐색 강화, 하위는 빠른 수렴)
  • Batch size는 B=4일 때 가장 균형적 (작으면 노이즈 큼, 크면 탐색 적음)

🧪 실제 활용: GPT-3.5에서 GPT-4로 업그레이드 실험

  • GPT-3.5로 튜닝 후 GPT-4로 전환하는 실험에서 tuning 상태 유지(Continue)초기화(Reset)보다 빠르게 적응하고 성능이 더 좋았음.
  • 하이퍼파라미터 튜닝 결과도 더 우수하게 유지됨.

🔮 결론 및 향후 연구

✅ 공헌

  • RAG 시스템에서 온라인 자동 하이퍼파라미터 튜닝 가능성 입증
  • Hierarchical MAB를 통해 탐색 효율성과 성능 향상을 동시에 달성

🔜 향후 과제

  • 다양한 LLM 적용 (small LLM 등)
  • 더 많은 하이퍼파라미터로 확장
  • 다중 피드백 소스(예: 문서 적합도 등) 통합
  • Pareto 최적화 등 다목적 reward 처리

profile
NLP 공부합니당

0개의 댓글