🔴 기존 ALM 문제
ALM이란?
: LLM이 외부 도구를 자율적으로 호출하고 그 결과를 바탕으로 반복적으로 의사결정을 수행하는 모델
🟢 ReWOO 핵심 아이디어
성능 결과
최근 LLM을 외부 플러그인이나 도구와 결합하여,LLM이 환경과 상호작용하고 최신 지식을 검색할 수 있도록 하는 패러다임이 주목받고 있다. -> ALM
언어적 추론과 도구 호출을 번갈아 수행
- LLM의 빈번한 실행과 중단
- LLM은 이전 컨텍스트에 조건부로 토큰을 생성하기 때문에 외부 도구와 상호작용할 경우, LLM은 도구의 응답을 기다리기 위해 실행이 중단
- 막대한 토큰 소비 비용
- 블랙박스 LLM API는 상태를 저장하지 않는 구조이므로,
토큰 생성을 다시 시작하려면 컨텍스트 프롬프트,예시,이전의 모든 추론 과정,관측 결과를 전부 다시 입력
[Context + Exemplars + Question]
→ Thought₁ → Action₁ → Observation₁
→ (전부 다시 입력)
→ Thought₂ → Action₂ → Observation₂
→ (전부 다시 입력)
→ ...
이런 한계를 해결하기 위해 등장한게 ReWOO

ReWOO는 ALM의 핵심 구성 요소인 단계적 추론, 도구 호출,요약
을 세 개의 독립된 모듈로 분리한다
Planner: 하나의 작업을 여러 단계로 분해하고, 서로 의존적인 계획들로 구성된 청사진을 만든다. 각 계획은 Worker에게 할당된다.
Worker: 외부 도구를 사용해 해당 계획에 필요한 외부 지식과 증거를 수집한다.
Solver: 모든 계획과 증거를 종합하여초기 질문에 대한 최종 답변을 생성한다.
1. Planner:
[Context + Exemplars + Question]
→ Plan₁, Plan₂, … Planₖ
2. Worker:
도구 호출해서 E₁, E₂, … Eₖ 채움
3. Solver:
[Context + Question + (Plan₁+E₁)+…+(Planₖ+Eₖ)]
→ Answer
기존 ALM은 “보고 → 생각 → 또 보고 → 또 생각” ReWOO는 “생각 다 하고 → 보고 → 정리”

ReWOO는 LLM의 추론 과정과 외부 도구 사용을 분리
-> 관측에 의존하는 추론 방식에서 발생하는 프롬프트의 반복적 중복을 피할 수 있으며, 그 결과 토큰 사용량을 크게 줄이고 프롬프팅 효율을 향상

ReWOO를 종합적으로 평가하기 위해, 6개의 다단계·지식 집약적 NLP 벤치마크, 그리고 하나의 자체 구축 데이터셋에서 실험을 수행
ReWOO의 비교 기준:
ReWOO가 관측 기반 추론 방식 대비 일관된 효율성 향상을 달성했음을 보여준다.
또한 instruction tuning과 specialization을 통해 ReWOO가 시스템 파라미터 효율성 측면에서도 큰 잠재력을 가짐을 입증했다.
실험 결과,소수의 에폭만 fine-tuning한 LLaMA 7B 모델이 zero-shot 설정에서 GPT-3.5와 대등한 성능을 보였으며, 이는 ReWOO가 가볍고 확장 가능한 ALM 배포를 가능하게 함을 보여준다.
ReWOO의 핵심 기여
① Foreseeable Reasoning 규명
- LLM은 도구의 관측 없이도 필요한 정보와 해결 단계를 미리 계획하는 추론 능력을 가짐 이를 foreseeable reasoning이라 정의
② ReWOO 모듈형 ALM 프레임워크 제안
- Planner / Worker / Solver 구조로 추론과 도구 호출을 완전히 분리
③ 추론 능력의 소형 모델 Offloading
- 대형 LLM의 foreseeable reasoning 능력을 소형 언어 모델로 이전-> LLaMA 7B가 GPT-3.5 수준의 성능 달성 (zero-shot), 소형 모델도 보지 못한 도구를 zero-shot으로 활용 가능
Planner가 Worker에게 지시를 내릴 때 이전 단계에서 수집된 #E들을 참조할 수 있기 때문에 다음 단계가 이전 결과에 의존하는 문제도 처리 가능
추론과 관측을 번갈아 수행하는 방식의 ALM 시스템은 프롬프트 중복 문제를 겪는다.
관측 기반 ALM이 질문 Q를 해결하기 위해 총 k개의 추론 단계를 거쳐
최종 응답 R을 도출한다고 가정해보자.

질문 Q, 컨텍스트 C, 예제 S 매 단계마다 다시 입력됨
질문 Q → k번
컨텍스트 C → k번
예제 S → k번
-> 중복
1단계에서 만든 (T₁, A₁, O₁)
→ 이후 모든 단계에서 다시 포함
2단계 TAO
→ 그 다음 단계들에서 계속 포함
…
즉, 초반에 만든 생각일수록 나중에 수십 번 재사용됨
그래서 토큰 수가 k에 대해 거의 제곱(k²)으로 증가
k 조금만 커져도:
토큰 제한 초과
비용 폭탄
시간 폭탄

Θ(x) : 텍스트 x의 토큰 개수
C_planner : Planner에게 주는 컨텍스트(규칙/지시문/시스템 프롬프트 등)
C_solver : Solver에게 주는 컨텍스트
Pⱼ : j번째 단계의 계획 문장(Plan text)
→ “이번 단계에서 뭘 해야 하는지” 설명
Eⱼ : j번째 단계에서 Worker가 가져온 증거(Evidence)
→ 검색 결과/도구 결과/문서 일부 등
ReWOO에서 LLM에 넣는 입력은 딱 두 번 발생한다
1). Planner 호출 1번
입력으로 (Planner 컨텍스트 + 예시 + 질문) 을 넣는다

2). Solver 호출 1번
입력으로 (Solver 컨텍스트 + 질문 + 모든 단계의 (계획+증거)) 를 넣는다

두 개를 더한 게 총 입력 토큰.
기존 ReAct는 단계마다 LLM을 다시 부르니까 입력이 k번 이상 반복되는데, ReWOO는 Planner 1번 + Solver 1번 = 총 2번만 LLM 호출

(1) 질문 Q가 2번 들어감 → 2Θ(Q)
(2) 컨텍스트 C가 2번 들어감 → 2Θ(C)
둘 다 "컨텍스트" 계열이라 대충 C로 묶음
※ 정확히는 Θ(C_planner) + Θ(C_solver)인데,
보기 쉽게 "둘 다 비슷한 규모의 컨텍스트"라고 보고 2C처럼 적은 것.
(3) 예시 S는 1번만 → Θ(S)
(4) 단계별로 추가되는 건 (P + E)뿐 → ΣΘ(P_j + E_j)
기존 방식
매 단계마다:
컨텍스트 + 예시 + 질문 + 지금까지의 모든 기록을 다시 입력
그래서 단계가 늘면 이전 기록 재전송이 폭증 → 거의 k² 느낌ReWOO
컨텍스트/질문/예시는 거의 정해진 횟수만
단계가 늘면 Plan+Evidence만 늘어남 → k에 비례
기존 ALM은 ALM은 파라미터 모델(LLM) 과 비파라미터 요소(도구 호출) 를 함께 다뤄야 해서 end-to-end 학습이 매우 복잡하다는 한계가 있음
기존 접근:
Toolformer : 도구가 포함된 코퍼스를 활용하여 self-supervised 방식으로 언어 모델을 미세조정
❌ 도구를 독립적으로만 샘플링 → 다단계 추론에 취약
ReAct :thought–action–observation 전체 궤적을 fine-tuning
❌ 보지 못한 작업이나 새로운 도구 집합에 대해 잘 일반화되는지는 입증되지 않음
이런 한계를 해결하기 위해 ReWOO는 추론과 도구 호출을 분리한다.
Fine-tuning 단계에서는 도구 응답을 전혀 보여주지 않고,
대신 Planner에 대해 미리 계획하는 추론 능력(foreseeable reasoning)만 학습

GPT-3.5가 가진 foreseeable reasoning 능력을 LLaMA 7B로 이전(offloading)
GPT-3.5(text-davinci-003)로 HotpotQA + TriviaQA 데이터에서 약 4000개의 (Plan, #E) blueprint 생성
Bootstrapping
정답으로 이어진 경우만 선택
→ 약 2000개 Planner용 instruction 데이터 확보Alpaca 7B 생성
LLaMA 7B를 52k self-instruct 데이터로 fine-tuning
→ GPT-3.5의 일반적 능력을 근사Planner 7B 생성
Alpaca 7B를 다시 Planner instruction 데이터로 fine-tuning
→ foreseeable reasoning에 특화된 모델
본 논문에서는 다양한 NLP 벤치마크 전반에 걸쳐 ReWOO를 최신 프롬프팅 패러다임들과 비교 평가하였다.
외부 도구 활용의 필요성을 강조하기 위해, 답변을 위해 최신 외부 지식이 반드시 필요한 데이터셋을 새롭게 구축하였다.
주목할 점은, ReWOO가 토큰 사용량을 일관되게 줄이면서도, 모든 과제에서 ReAct와 동등하거나 더 뛰어난 성능을 보였다는 것이다.

최신 정보가 필요한 실제 ALM 시나리오
Direct Prompt
Chain-of-Thought (CoT)
ReAct
ReWOO Planner용 예시:
예시 내용:
PhysicsQA, SportsUnderstanding, StrategyQA:
공정성을 위해:
기본 제공 도구:
Curated 태스크 추가 도구:
-> ReWOO와 ReAct에 동일한 도구 세트 제공
(벤치마크별 사용 가능 도구는 Table 1)
(1). 성능
(2). 효율성
SOTUQA가 중요한 이유
ReWOO & ReAct 모두
→ Direct Prompt / CoT보다 훨씬 잘함
ReWOO vs ReAct

외부 도구를 제공하지 않은 Direct Prompting과 CoT가
ALM 방식보다 더 좋은 성능을 보이는 경우가 존재
이 관찰을 바탕으로, 저자들은 도구 개수를 점진적으로 늘리는 실험을 수행
HotpotQA에서 시작하여 ReWOO와 ReAct에 도구를 하나씩 추가
Google 같은 강력한 도구는 일시적으로 성능 향상
그러나 도구 수가 많아질수록 전체 성능은 감소
2개 도구에서는 성공하지만 7개 도구에서는 실패한 ReWOO 사례 20개 중 17개가 도구 오용때문
이는 불필요한 도구가 ALM에 잡음을 유입해 성능을 저하시킨다는 것을 의미
ALM 시스템에서는 도구 오류 또는 빈 응답이 흔히 발생한다.
이를 평가하기 위해, 모든 도구가 “No evidence found.”를 반환하도록 강제한 실험을 수행
즉, ReWOO는 도구 실패 상황에서도 더 강건하다.
HotpotQA에서 사용한 LLM을 gpt-3.5-turbo → text-davinci-003
으로 교체한 실험도 수행했다.
text-davinci-003은 더 적은 추론 단계,더 적은 토큰,더 높은 성능
을 보였다.
이는 대화형 RLHF가 상식 기반 추론 능력에는 오히려 약간 부정적일 수 있음을 시사한다.

앞서 제시한 Specialization 프레임워크를 따라, GPT-3.5의 능력을 각각 Alpaca 7B와 Planner 7B로 offload하였다.
이 두 모델은 모두 zero-shot 설정에서 원래의 GPT-3.5와 성능 비교를 수행하였다.
Figure 6에 따르면, Alpaca 7B와 Planner 7B를 ReWOO의 Planner 모듈에 적용했을 때,
와 같은 벤치마크에서 파라미터 수가 약 25배 더 큰 GPT-3.5와 맞먹는 성능을 달성하였다.
또한, Alpaca 7B에서 Planner 7B로 갈수록 전반적인 정확도가 추가로 향상되는 것을 확인할 수 있는데,
이는 Specialization 전략이 효과적으로 작동했음을 의미한다.
Planner 7B를 학습할 때 사용한 instruction 데이터에는
Wikipedia[query]LLM[prompt]두 가지 도구만 등장했음에도 불구하고,
in-context에서 도구 설명만 제공하면, Planner 7B는
Google[query]Calculator[prompt]와 같은 보지 못한 도구들에 대해서도 Alpaca 7B보다 더 잘 추론하는 모습을 보였다.
“큰 모델이 잘하는 ‘미리 생각하는 능력’만 뽑아서, 작은 모델에게 가르칠 수 있다.”
환경 정보가 거의 없는 탐색형 과제에서는 ReWOO의 핵심인 foreseeable reasoning이 잘 작동하지 않음

"당신은 방 한가운데에 있다.
주변을 둘러보면 drawer, shelf, cabinet, sofa, safe 등
매우 많은 물체들이 있다.
당신의 목표는: vase을 safe에 넣는 것이다."
→ Planner가 vase의 위치를 전혀 모르기 때문에
→ 가능한 모든 행동 경로를 전부 나열해야 함
이 경우 Planner의 추론 복잡도는 기존 observation-dependent 방식의 최악 복잡도와 동일
즉, ReWOO도 환경 관측이 필수적인 문제에서는 한계가 있음
🟢 시사점
1. 특화 능력의 소형 모델 오프로딩
foreseeable reasoning을 작은 모델로 이전 (Planner 7B 사례)
Solver 등 다른 모듈도 동일하게 특화 가능2. 도구 표현 학습 (Tool Representation Learning)
기능이 비슷한 도구를 벡터로 표현
ALM 전체를 파라미터화 → end-to-end 학습 가능성3. DAG 실행 최적화
병렬 실행, 그래프 최적화 알고리즘 적용
전체 시스템 효율 및 속도 개선
기존 ALM은 추론 과정과 도구 호출이 얽혀 있어, 매 단계마다 동일한 컨텍스트와 예시가 반복 입력되며 토큰 사용량과 비용이 급격히 증가하는 한계를 가진다.
ReWOO는 이를 Planner–Worker–Solver 구조로 분리하여,
Planner는 도구 응답 없이 전체 해결 과정을 미리 설계하고
Worker는 계획에 따라 외부 도구를 호출해 증거를 수집하며
Solver는 계획과 증거를 종합해 최종 답변을 생성한다.
이 과정에서 활용되는 foreseeable reasoning은 관찰 없이도 다음 추론 단계를 예측하는 능력으로, ReWOO가 프롬프트 중복을 제거하고 토큰 사용량을 선형 증가(O(k))로 유지할 수 있게 하는 핵심 요소이다.
다양한 공개 NLP 벤치마크와 실제 환경을 반영한 큐레이션 데이터셋에서, ReWOO는 ReAct 대비 훨씬 적은 토큰을 사용하면서도 동일하거나 더 높은 성능을 달성하였다.
추가 실험을 통해 GPT-3.5의 foreseeable reasoning 능력을 소형 언어 모델로 이전할 수 있음을 확인하였으며, 작은 모델도 제로샷 환경에서 새로운 도구를 활용할 수 있는 가능성을 제시하였다.
본 연구는 ReWOO가 토큰 효율성, 파라미터 효율성, 확장성을 동시에 만족하는 ALM 설계의 기반이 될 수 있음을 보여주며, 향후 모듈별 특화 학습, 도구 표현 학습, 시스템 그래프 최적화로 확장될 수 있는 방향을 제안한다.