Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

하임·2026년 1월 9일

RAG

목록 보기

19/20

논문 “Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning”은 검색 엔진과 상호작용하는 능력을 강화하기 위해 강화학습(RL)을 이용해 LLM이 자율적으로 검색 쿼리를 생성하고 추론할 수 있도록 훈련하는 프레임워크인 SEARCH-R1을 제안합니다.

🔍 주요 목표

기존의 Retrieval-Augmented Generation(RAG) 방식이나 Prompt 기반 툴 사용은 LLM이 검색 엔진과 효율적으로 상호작용하는 능력을 학습하지 못한다는 한계가 있습니다.

SEARCH-R1은 LLM이 강화학습만을 사용하여 검색 쿼리를 생성하고,
검색-추론을 교차하며 수행하도록 훈련합니다.
기존 모델 대비 Qwen2.5-7B에서는 26%, Qwen2.5-3B는 21%, LLaMA3.2-3B는 10%의 성능 향상이 있었습니다.

🧠 모델 구조 및 동작 방식

1. 인터리브드 검색 및 추론 (Interleaved Retrieval + Reasoning)

추론 내용 , 최종 답변 등 특수 토큰 사용
다단계 검색(Multi-turn Retrieval)을 학습하여, 복잡한 질문에도 유연하게 대응

2. 강화학습 프레임워크

PPO(Proximal Policy Optimization)와 GRPO(Group Relative Policy Optimization)를 모두 지원
검색으로 가져온 토큰에는 Loss Masking을 적용해 안정적인 학습을 유도

3. 보상 함수 (Reward Function)

단순한 최종 결과 기반 보상(Exact Match 기반)
포맷 보상이나 과정 기반 보상은 사용하지 않음 (복잡도 증가 방지)

🧪 실험 세팅 및 결과

✅ 사용 모델

Qwen2.5 (3B/7B), LLaMA3.2 (3B)
검색은 2018년 위키피디아와 E5 Retriever 사용

✅ 사용 데이터셋

단일 질의 QA: NQ, TriviaQA, PopQA
멀티 홉 QA: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

✅ 주요 비교 대상

Direct Inference / Chain-of-Thought
RAG / IRCoT / Search-o1
SFT (지도 학습) / R1 (검색 없는 강화학습)

✅ 성능 요약 (평균 Exact Match 기준)

모델	성능 향상률
Qwen2.5-7B	+26%
Qwen2.5-3B	+21%
LLaMA3.2-3B	+10%

📊 분석 결과

✅ PPO vs. GRPO

GRPO는 더 빠르게 수렴하며 평균 성능도 더 우수
PPO는 수렴 속도는 느리지만 더 안정적임

✅ Base vs. Instruct 모델

Instruct가 초기 성능과 수렴 속도는 빠르지만, 최종 성능은 base와 유사
RL이 base 모델의 부족한 초기 성능을 보완 가능

✅ 검색 결과 토큰 마스킹

Retrieved Token에 대한 Loss Masking이 없으면 훈련이 불안정
마스킹 시, 평균 정확도는 0.305, 없을 경우 0.147

🧾 사례 분석

예: "Curious는 어떤 가수의 향수이며, 그녀는 어느 도시/주 출신인가?"
🔸 기존 RL(R1)은 오답(Beyoncé) 생성
🔸 SEARCH-R1은 다단계 검색 수행 → Britney Spears, McComb, Mississippi 정확히 추론

📌 결론 요약

SEARCH-R1은 검색 엔진과의 상호작용을 강화학습을 통해 학습
기존 Prompt/RAG 기반 접근보다 자율성과 유연성이 뛰어남
다양한 LLM과 호환되며, 다양한 QA 태스크에서 우수한 성능을 달성

하임

NLP 공부합니당

이전 포스트

RuleRAG: Rule-Guided Retrieval-Augmented Generation with Language Models for Question Answering

다음 포스트