Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection

하임·2026년 1월 9일

Routing

목록 보기

43/44

https://arxiv.org/pdf/2505.19435

이 논문 《Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection》(2025)은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 관리하기 위한 새로운 프레임워크, “Route-To-Reason (RTR)”를 제안합니다.

🧭 1. 연구 배경과 문제의식

최근 LLM은 인간 수준의 추론 능력을 보이지만,

복잡한 문제에서는 높은 정확도를 보이지만,
간단한 문제에서는 불필요한 “overthinking” 현상으로 비효율이 발생합니다.

즉, 모든 문제에 동일한 모델과 reasoning 전략(CoT, PAL 등)을 적용하는 것은

비용 대비 효율이 낮습니다.

⚠️ 핵심 문제:

어떤 모델(예: Qwen2.5-14B, QwQ-32B)과

어떤 추론 전략(예: Chain-of-Thought, CoD, PAL, Vanilla)을 입력 난이도에 따라 동적으로 선택할 수 있는가?

🧩 2. 제안 방법: Route-To-Reason (RTR)

RTR은 모델 선택(Model Routing)과 추론 전략 선택(Strategy Routing)을

통합적으로 수행하는 프레임워크입니다.

🔹 작동 개요 (Figure 4, page 4 참고)

입력 질문을 인코딩하여 의미적 벡터로 표현
각 모델과 전략의 표현 벡터를 학습 (성능·비용 특성 포함)
두 개의 예측기(MLP)로
- 모델-전략 조합의 예상 성능
- 예상 토큰 수(비용) 를 예측
이를 기반으로 Routing Table을 생성
성능(accuracy)과 비용(tokens)의 균형을 고려해 최적 조합을 선택

수식:

[

\text{score}{i,j,k} = \lambda \cdot \hat{a}{i,j,k} - (1 - \lambda) \cdot \hat{l}_{i,j,k}

]

여기서

( \hat{a}_{i,j,k} ): 성능 예측값

( \hat{l}_{i,j,k} ): 토큰 예측값

( \lambda ): 성능 vs 비용의 가중 조정 파라미터

⚙️ 3. 데이터셋 및 실험 설계

📊 훈련 및 평가 데이터

구분	데이터셋	난이도	설명
In-Distribution (ID)	GSM8K, MMLU, Math, OlympiadBench	쉬움~어려움	수학, 과학, 상식 문제
Out-of-Distribution (OOD)	SciQ, PIQA, ARC-C	쉬움~어려움	과학·상식 OOD 테스트

학습: 70% / 테스트: 30% 분할

평가 지표: 정확도(accuracy) + 평균 토큰 수(tokens)

🧠 4. 주요 실험 결과

✅ In-Distribution (Table 2, page 7)

모델	평균 정확도 (%)	평균 토큰 수
Qwen2.5-3B	56.0	371.7
QwQ-32B	80.0	2745.2
EmbedLLM	81.9	1808.3
RTR (제안)	82.5	1091.3

📈 결론:

정확도는 가장 높은 수준 유지 (↑2.5%)

토큰 사용량 60% 절감

🌍 Out-of-Distribution (Table 3, page 7)

모델	평균 정확도 (%)	평균 토큰 수
QwQ-32B	93.7	1387.3
EmbedLLM	93.2	1155.4
RTR (제안)	94.2	393.9

RTR은 새로운 도메인(OOD)에서도

정확도 유지 + 70% 비용 절감 효과를 보임.

🔍 5. 분석 및 해석

🧩 Ablation (Figure 5 & 6)

모델과 전략을 텍스트 설명 + 학습 임베딩으로 함께 표현할 때 성능 예측 정확도가 최고 (76.1%)
토큰 예측도 200~600 token 오차 내에서 60~80% 정확도 확보

⚖️ Routing 전략 비교 (Figure 7)

*고정 전략(CoT, PAL 등)**보다 RTR의 동적 선택이 일관되게 더 높은 효율
λ 조정으로 성능 중심 / 비용 중심 조절 가능

💬 6. 사례 연구 (Figure 8 & 11~13)

예시 문제에서:

QwQ-32B + CoT 조합 → 잘못된 답 + 4000 tokens 소모
RTR 선택(Qwen2.5-7B + CoD) → 정답 + 32 tokens

💡 RTR은 간단한 문제에서는 작은 모델+간단한 전략을,

어려운 문제에서는 큰 모델+깊은 전략을 선택함으로써

"Less is More" 원칙을 실현.

🧩 7. 관련 연구와 차별점

분야	기존 접근	RTR의 차별점
Model Routing	단순 모델 선택 (RouteLLM, EmbedLLM 등)	모델 + 전략의 동시 선택
Reasoning Strategy	CoT, PAL, CoD 개별 전략 고정	전략을 문제별로 동적 적용
Adaptive Inference	Reinforcement tuning 기반	추론/비용 예측 기반 경량 Routing

🔮 8. 결론 및 한계

✅ 기여점

최초의 “모델 + 전략” 동시 Routing Framework
다양한 모델·전략 조합에서 효율적 추론 가능
OOD에서도 강한 일반화 성능

⚠️ 한계 및 향후 연구

현재는 단일 모델-전략 선택만 고려 → 다중 모델 협력 라우팅 확장 필요
추론 외의 일반적 LLM 태스크(요약, 번역 등) 확장 필요

📘 핵심 요약

항목	내용
제안 프레임워크	Route-to-Reason (RTR)
핵심 아이디어	모델 + 전략을 입력 난이도별로 동적 선택
주요 성과	60% 이상 토큰 절감, 정확도 향상
강점	비용 효율성 + 범용성 + Plug-and-Play 구조
실험 모델	Qwen, DeepSeek, QwQ 등 7종
실험 전략	CoT, PAL, CoD, Vanilla
공개 코드	github.com/goodmanpzh/Route-To-Reason

하임

NLP 공부합니당

이전 포스트

RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing

다음 포스트