본 논문은 작은 언어모델이 다양한 툴(도구)과 대형 모델들을 효율적으로 조합하여, 단일 거대 모델을 능가하는 지능을 발휘할 수 있는지를 실증한 연구이다.
저자들은 ToolOrchestra라는 새로운 강화학습(RL) 기반 툴 오케스트레이션 기법을 제안하고, 이를 통해 오케스트레이터(Orchestrator)-8B라는 8B 규모의 모델을 훈련하였다.
주요 발견은 다음과 같다.
기존 연구가 주로 “큰 모델 + 기본 툴” 조합에 머물렀다면, 본 논문은 “작은 모델 + 다양한 툴 + RL 최적화”라는 구조적 혁신을 제시한다.
논문은 다음 두 가지 주요 한계를 지적한다.
Self-enhancement bias / Other-enhancement bias
Figure 3 | Tool-calling preferences exhibited by a prompted off-the-shelf or RL-trained model. GPT-5 tends to call GPT-5-mini most of the time, while Qwen3-8B relies heavily on GPT-5.
사용자 선호·비용·지연을 반영하지 못함
논문의 핵심 기여는 ToolOrchestra라는 RL 기반 툴 오케스트레이션 프레임워크와
이를 통해 훈련된 Orchestrator-8B 모델이다.
사용자 질의 → 오케스트레이터가 “추론(reasoning)” → 필요한 툴을 선택하여 “액션(tool call)” → 툴의 결과 관찰(observation) → 반복 → 최종 답변 생성
Figure 2 | Overview of Orchestrator. Given a task, Orchestrator alternates between reasoning and tool calling in multiple turns to solve it. Orchestrator interacts with a diverse tool set, including basic tools (web search, functions such as get_flight_status, etc.), specialized LLMs (coding models, math models, etc.) and generalist LLMs (GPT-5, Claude Opus 4.1, etc.). In training under ToolOrchestra, Orchestrator is jointly optimized by outcome, efficiency and preference rewards via reinforcement learning.
모든 툴은 JSON 기반 공통 인터페이스로 관리한다.
오케스트레이터는 단일 포맷으로 모든 모델·함수·API를 호출한다.
논문 핵심은 “정답률만 높이는 것이 아니라 효율성까지 최적화하는 보상 구조”이다.
보상 공식은 다음과 같다.
여기서 P는 사용자 선호 벡터이며, ToolOrchestra의 철학적 핵심이다.
논문은 매우 중요한 기여로 ToolScale이라는 대규모 synthetic agentic 데이터셋을 제작했다.
Figure 4 | Overview of ToolScale data synthesis pipeline. Starting from a domain, LLM will (1) firstly generate domain-specific database and tool APIs to simulate the environment and (2) then generate diverse user tasks together with their corresponding golden actions.
총 10개 도메인, 수백~수천 개의 데이터 구성
Table 5 | Statistics of ToolScale: the number of tools, database entries, and tasks per domain.
논문은 3개 대표적 고난도 벤치마크에서 실험한다.
→ 8B 모델이 GPT-5를 능가
FRAMES 란, 여러 문서를 찾아보고, 사실을 조합해서 답하는 능력 평가를 말한다.
쉽게 말하면 "구글로 여러 페이지를 찾아보고, 모두 읽은 뒤 종합해서 한 문장으로 답하기" 이다예시
질문 : “2010년에 상을 받은 감독이 2018년에 만든 영화의 주연 배우는 누구인가?”
처리과정 :
→ 위키 문서 3~5개를 직접 찾아야 하고
→ 감독 정보 + 수상 기록 + 영화 정보 + 배우 정보
→ 이렇게 여러 사실을 엮어해야 정답이 나온다.
→ Orchestrator-8B 모델이 가장 높은 평가를 받음
τ²-Bench 란, 사용자 질의에 대해 문제를 해결하기 위해 필요한 기능을 호출하거나 적절한 도구를 얼마나 잘 쓰는지 평가하는 지표이다.
쉽게 말하면 "나사를 조이기위해 드라이버나 전동드릴을 찾는 것처럼 작업에 필요한 적절한 도구를 골라 쓰는 능력" 을 평가하는 것이다.예시
질문 : "내 데이터 초과됐는지 체크해주고, 초과되었으면 데이터팩 구매해줘."
처리과정 :
→ check_data_usage(user)
→ 초과된 경우 purchase_data_pack(user, plan)
→ 결제 성공 확인 check_payment(status)
GPT-5(Tool 사용): 77.7%
Orchestrator-8B: 80.2%
→ Orchestrator-8B 모델이 GPT-5(Tool 사용) 모델 보다 높은 수치를 기록
HLE 기준:
Figure 6 | The relationship between perfor- mance and cost. Compared to strong mono- lithic LLM systems, Orchestrator (ours) achieves the best cost-effectiveness
→ 성능은 높고 비용은 1/3
Figure 5 | The proportion of tool calls made by LLMs to solve a task (averaged across HLE, Frames and 𝜏2-bench). Qwen-32B refers to Qwen3-32B and Coder-32B refers to Qwen2.5-Coder-32B-Instruct. Compared to other strong foundation models, Orchestrator-8B makes more balanced tool calls, and does not exhibit strong biases toward a particular tool or model.
본 논문은 다음과 같은 명확한 기여를 남긴다.
“미래의 고성능 AI는 거대한 하나의 모델이 아니라, 작은 모델이 여러 도구를 지능적으로 조율하는 ‘오케스트라형 AI’가 되지 않을까?”