AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation

하임·2026년 1월 9일

RAG

목록 보기

15/20

https://arxiv.org/pdf/2406.19251

논문 "AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation"은 LLM 기반의 RAG(Retrieval-Augmented Generation) 시스템에서 하이퍼파라미터를 온라인 환경에서 자동으로 튜닝하는 방법을 제안한 최신 연구입니다.

🧠 논문 요약

🔍 배경

LLM이 발전하면서 다양한 응용에서 Retrieval-Augmented Generation (RAG)이 널리 사용됨.
하지만 RAG는 top-k, embedding model, prompt compression ratio 등 많은 하이퍼파라미터를 가지며, 최적 세팅을 찾는 것이 어렵고 시간 소모가 큼.
온라인 시스템에서는 사용자의 피드백을 반영해 실시간으로 튜닝하는 것이 이상적.

🎯 연구 목표

하이퍼파라미터 튜닝을 Multi-Armed Bandit (MAB) 문제로 모델링.
Hierarchical MAB (Hier-MAB) 라는 2단계 구조를 제안하여 다수의 하이퍼파라미터를 효율적으로 탐색.

🧪 방법론

📌 문제 정의

각 하이퍼파라미터 조합을 MAB의 arm으로 보고, 반복적으로 선택하며 reward (정확도 vs 비용)를 관찰.
보상 함수 예시: $\text{Reward} = w \cdot \text{accuracy} - (1-w) \cdot \frac{\text{token length}}{t_{max}}$
- w=0.9: 정확도 중심, w=0.1: 비용 중심

🧩 두 단계 MAB 구조 (Hier-MAB)

상위 MAB: 어떤 하이퍼파라미터(예: top-k, embedding, compression ratio)를 튜닝할지 선택
하위 MAB: 선택된 하이퍼파라미터 내에서 값 선택 (예: top-k=3)

이렇게 하면 탐색 공간의 차원을 줄이고, 빠른 수렴과 탐색의 균형을 잡을 수 있음.

📊 실험

📁 데이터셋

ALCE-ASQA, Natural Questions (NQ): QA 형식 데이터셋
각 질문마다 문서 청크가 존재함

🔧 실험 설정

튜닝 대상 하이퍼파라미터:
- top-k: [1, 3, 5, 7, 9]
- compression ratio C: [0.3, 0.5, 0.7, 0.9, 1.0]
- embedding model: [mpnet, ada_002, contriever]
reward 조절 가중치 w: [0.1, 0.5, 0.9]

📈 성능 측정

Recall@3 (2개 하이퍼파라미터 튜닝)
Recall@5 (3개 튜닝)
Ground-truth는 Grid Search로 도출

🔍 결과 및 분석

🎯 주요 결과

Hier-UCB가 모든 기준에서 가장 빠르게 수렴하며 가장 높은 Recall을 기록 (특히 중간 난이도에서 탁월).
Grid Search 대비 LLM API 호출량 80% 감소 (20%만 사용).
w 값에 따라 문제 난이도가 다름:
- w=0.1: 쉽고 탐색이 빠름
- w=0.9: 정확도 중심이지만 최적값 군이 평평해서 탐색이 어려움

⚙️ Ablation 실험

αh=1.5, αl=0.5일 때 가장 빠른 수렴 (상위는 탐색 강화, 하위는 빠른 수렴)
Batch size는 B=4일 때 가장 균형적 (작으면 노이즈 큼, 크면 탐색 적음)

🧪 실제 활용: GPT-3.5에서 GPT-4로 업그레이드 실험

GPT-3.5로 튜닝 후 GPT-4로 전환하는 실험에서 tuning 상태 유지(Continue)가 초기화(Reset)보다 빠르게 적응하고 성능이 더 좋았음.
하이퍼파라미터 튜닝 결과도 더 우수하게 유지됨.

🔮 결론 및 향후 연구

✅ 공헌

RAG 시스템에서 온라인 자동 하이퍼파라미터 튜닝 가능성 입증
Hierarchical MAB를 통해 탐색 효율성과 성능 향상을 동시에 달성

🔜 향후 과제

다양한 LLM 적용 (small LLM 등)
더 많은 하이퍼파라미터로 확장
다중 피드백 소스(예: 문서 적합도 등) 통합
Pareto 최적화 등 다목적 reward 처리

NLP 공부합니당

이전 포스트

DRoC: Elevating Large Language Models for Complex Vehicle Routing via Decomposed Retrieval of Constraints

다음 포스트

Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study

0개의 댓글