Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

하임·4일 전

RAG

목록 보기
19/20

https://arxiv.org/pdf/2503.09516v2

논문 “Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning”은 검색 엔진과 상호작용하는 능력을 강화하기 위해 강화학습(RL)을 이용해 LLM이 자율적으로 검색 쿼리를 생성하고 추론할 수 있도록 훈련하는 프레임워크인 SEARCH-R1을 제안합니다.


🔍 주요 목표

기존의 Retrieval-Augmented Generation(RAG) 방식이나 Prompt 기반 툴 사용은 LLM이 검색 엔진과 효율적으로 상호작용하는 능력을 학습하지 못한다는 한계가 있습니다.

  • SEARCH-R1은 LLM이 강화학습만을 사용하여 검색 쿼리를 생성하고,
  • 검색-추론을 교차하며 수행하도록 훈련합니다.
  • 기존 모델 대비 Qwen2.5-7B에서는 26%, Qwen2.5-3B는 21%, LLaMA3.2-3B는 10%의 성능 향상이 있었습니다.

🧠 모델 구조 및 동작 방식

1. 인터리브드 검색 및 추론 (Interleaved Retrieval + Reasoning)

  • 추론 내용 , 최종 답변 등 특수 토큰 사용
  • 다단계 검색(Multi-turn Retrieval)을 학습하여, 복잡한 질문에도 유연하게 대응

2. 강화학습 프레임워크

  • PPO(Proximal Policy Optimization)와 GRPO(Group Relative Policy Optimization)를 모두 지원
  • 검색으로 가져온 토큰에는 Loss Masking을 적용해 안정적인 학습을 유도

3. 보상 함수 (Reward Function)

  • 단순한 최종 결과 기반 보상(Exact Match 기반)
  • 포맷 보상이나 과정 기반 보상은 사용하지 않음 (복잡도 증가 방지)

🧪 실험 세팅 및 결과

✅ 사용 모델

  • Qwen2.5 (3B/7B), LLaMA3.2 (3B)
  • 검색은 2018년 위키피디아E5 Retriever 사용

✅ 사용 데이터셋

  • 단일 질의 QA: NQ, TriviaQA, PopQA
  • 멀티 홉 QA: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

✅ 주요 비교 대상

  • Direct Inference / Chain-of-Thought
  • RAG / IRCoT / Search-o1
  • SFT (지도 학습) / R1 (검색 없는 강화학습)

✅ 성능 요약 (평균 Exact Match 기준)

모델성능 향상률
Qwen2.5-7B+26%
Qwen2.5-3B+21%
LLaMA3.2-3B+10%

📊 분석 결과

✅ PPO vs. GRPO

  • GRPO는 더 빠르게 수렴하며 평균 성능도 더 우수
  • PPO는 수렴 속도는 느리지만 더 안정적

✅ Base vs. Instruct 모델

  • Instruct가 초기 성능과 수렴 속도는 빠르지만, 최종 성능은 base와 유사
  • RL이 base 모델의 부족한 초기 성능을 보완 가능

✅ 검색 결과 토큰 마스킹

  • Retrieved Token에 대한 Loss Masking이 없으면 훈련이 불안정
  • 마스킹 시, 평균 정확도는 0.305, 없을 경우 0.147

🧾 사례 분석

  • 예: "Curious는 어떤 가수의 향수이며, 그녀는 어느 도시/주 출신인가?"
  • 🔸 기존 RL(R1)은 오답(Beyoncé) 생성
  • 🔸 SEARCH-R1은 다단계 검색 수행 → Britney Spears, McComb, Mississippi 정확히 추론

📌 결론 요약

  • SEARCH-R1은 검색 엔진과의 상호작용을 강화학습을 통해 학습
  • 기존 Prompt/RAG 기반 접근보다 자율성과 유연성이 뛰어남
  • 다양한 LLM과 호환되며, 다양한 QA 태스크에서 우수한 성능을 달성

profile
NLP 공부합니당

0개의 댓글