https://arxiv.org/pdf/2505.19435
이 논문 《Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection》(2025)은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 관리하기 위한 새로운 프레임워크, “Route-To-Reason (RTR)”를 제안합니다.
최근 LLM은 인간 수준의 추론 능력을 보이지만,
즉, 모든 문제에 동일한 모델과 reasoning 전략(CoT, PAL 등)을 적용하는 것은
비용 대비 효율이 낮습니다.
⚠️ 핵심 문제:
- 어떤 모델(예: Qwen2.5-14B, QwQ-32B)과
- 어떤 추론 전략(예: Chain-of-Thought, CoD, PAL, Vanilla)을 입력 난이도에 따라 동적으로 선택할 수 있는가?
RTR은 모델 선택(Model Routing)과 추론 전략 선택(Strategy Routing)을
통합적으로 수행하는 프레임워크입니다.
수식:
[
\text{score}{i,j,k} = \lambda \cdot \hat{a}{i,j,k} - (1 - \lambda) \cdot \hat{l}_{i,j,k}
]
여기서
- ( \hat{a}_{i,j,k} ): 성능 예측값
- ( \hat{l}_{i,j,k} ): 토큰 예측값
- ( \lambda ): 성능 vs 비용의 가중 조정 파라미터
| 구분 | 데이터셋 | 난이도 | 설명 |
|---|---|---|---|
| In-Distribution (ID) | GSM8K, MMLU, Math, OlympiadBench | 쉬움~어려움 | 수학, 과학, 상식 문제 |
| Out-of-Distribution (OOD) | SciQ, PIQA, ARC-C | 쉬움~어려움 | 과학·상식 OOD 테스트 |
학습: 70% / 테스트: 30% 분할
평가 지표: 정확도(accuracy) + 평균 토큰 수(tokens)
| 모델 | 평균 정확도 (%) | 평균 토큰 수 |
|---|---|---|
| Qwen2.5-3B | 56.0 | 371.7 |
| QwQ-32B | 80.0 | 2745.2 |
| EmbedLLM | 81.9 | 1808.3 |
| RTR (제안) | 82.5 | 1091.3 |
📈 결론:
- 정확도는 가장 높은 수준 유지 (↑2.5%)
- 토큰 사용량 60% 절감
| 모델 | 평균 정확도 (%) | 평균 토큰 수 |
|---|---|---|
| QwQ-32B | 93.7 | 1387.3 |
| EmbedLLM | 93.2 | 1155.4 |
| RTR (제안) | 94.2 | 393.9 |
RTR은 새로운 도메인(OOD)에서도
정확도 유지 + 70% 비용 절감 효과를 보임.
예시 문제에서:
💡 RTR은 간단한 문제에서는 작은 모델+간단한 전략을,
어려운 문제에서는 큰 모델+깊은 전략을 선택함으로써
"Less is More" 원칙을 실현.
| 분야 | 기존 접근 | RTR의 차별점 |
|---|---|---|
| Model Routing | 단순 모델 선택 (RouteLLM, EmbedLLM 등) | 모델 + 전략의 동시 선택 |
| Reasoning Strategy | CoT, PAL, CoD 개별 전략 고정 | 전략을 문제별로 동적 적용 |
| Adaptive Inference | Reinforcement tuning 기반 | 추론/비용 예측 기반 경량 Routing |
| 항목 | 내용 |
|---|---|
| 제안 프레임워크 | Route-to-Reason (RTR) |
| 핵심 아이디어 | 모델 + 전략을 입력 난이도별로 동적 선택 |
| 주요 성과 | 60% 이상 토큰 절감, 정확도 향상 |
| 강점 | 비용 효율성 + 범용성 + Plug-and-Play 구조 |
| 실험 모델 | Qwen, DeepSeek, QwQ 등 7종 |
| 실험 전략 | CoT, PAL, CoD, Vanilla |
| 공개 코드 | github.com/goodmanpzh/Route-To-Reason |