https://arxiv.org/pdf/2503.09516v2
논문 “Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning”은 검색 엔진과 상호작용하는 능력을 강화하기 위해 강화학습(RL)을 이용해 LLM이 자율적으로 검색 쿼리를 생성하고 추론할 수 있도록 훈련하는 프레임워크인 SEARCH-R1을 제안합니다.
🔍 주요 목표
기존의 Retrieval-Augmented Generation(RAG) 방식이나 Prompt 기반 툴 사용은 LLM이 검색 엔진과 효율적으로 상호작용하는 능력을 학습하지 못한다는 한계가 있습니다.
- SEARCH-R1은 LLM이 강화학습만을 사용하여 검색 쿼리를 생성하고,
- 검색-추론을 교차하며 수행하도록 훈련합니다.
- 기존 모델 대비 Qwen2.5-7B에서는 26%, Qwen2.5-3B는 21%, LLaMA3.2-3B는 10%의 성능 향상이 있었습니다.
🧠 모델 구조 및 동작 방식
1. 인터리브드 검색 및 추론 (Interleaved Retrieval + Reasoning)
- 추론 내용 , 최종 답변 등 특수 토큰 사용
- 다단계 검색(Multi-turn Retrieval)을 학습하여, 복잡한 질문에도 유연하게 대응
2. 강화학습 프레임워크
- PPO(Proximal Policy Optimization)와 GRPO(Group Relative Policy Optimization)를 모두 지원
- 검색으로 가져온 토큰에는 Loss Masking을 적용해 안정적인 학습을 유도
3. 보상 함수 (Reward Function)
- 단순한 최종 결과 기반 보상(Exact Match 기반)
- 포맷 보상이나 과정 기반 보상은 사용하지 않음 (복잡도 증가 방지)
🧪 실험 세팅 및 결과
✅ 사용 모델
- Qwen2.5 (3B/7B), LLaMA3.2 (3B)
- 검색은 2018년 위키피디아와 E5 Retriever 사용
✅ 사용 데이터셋
- 단일 질의 QA: NQ, TriviaQA, PopQA
- 멀티 홉 QA: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle
✅ 주요 비교 대상
- Direct Inference / Chain-of-Thought
- RAG / IRCoT / Search-o1
- SFT (지도 학습) / R1 (검색 없는 강화학습)
✅ 성능 요약 (평균 Exact Match 기준)
| 모델 | 성능 향상률 |
|---|
| Qwen2.5-7B | +26% |
| Qwen2.5-3B | +21% |
| LLaMA3.2-3B | +10% |
📊 분석 결과
✅ PPO vs. GRPO
- GRPO는 더 빠르게 수렴하며 평균 성능도 더 우수
- PPO는 수렴 속도는 느리지만 더 안정적임
✅ Base vs. Instruct 모델
- Instruct가 초기 성능과 수렴 속도는 빠르지만, 최종 성능은 base와 유사
- RL이 base 모델의 부족한 초기 성능을 보완 가능
✅ 검색 결과 토큰 마스킹
- Retrieved Token에 대한 Loss Masking이 없으면 훈련이 불안정
- 마스킹 시, 평균 정확도는 0.305, 없을 경우 0.147
🧾 사례 분석
- 예: "Curious는 어떤 가수의 향수이며, 그녀는 어느 도시/주 출신인가?"
- 🔸 기존 RL(R1)은 오답(Beyoncé) 생성
- 🔸 SEARCH-R1은 다단계 검색 수행 → Britney Spears, McComb, Mississippi 정확히 추론
📌 결론 요약
- SEARCH-R1은 검색 엔진과의 상호작용을 강화학습을 통해 학습
- 기존 Prompt/RAG 기반 접근보다 자율성과 유연성이 뛰어남
- 다양한 LLM과 호환되며, 다양한 QA 태스크에서 우수한 성능을 달성