Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection

하임·2026년 1월 9일

Routing

목록 보기
43/44

https://arxiv.org/pdf/2505.19435

이 논문 《Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection》(2025)은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 관리하기 위한 새로운 프레임워크, “Route-To-Reason (RTR)”를 제안합니다.


🧭 1. 연구 배경과 문제의식

최근 LLM은 인간 수준의 추론 능력을 보이지만,

  • 복잡한 문제에서는 높은 정확도를 보이지만,
  • 간단한 문제에서는 불필요한 “overthinking” 현상으로 비효율이 발생합니다.

즉, 모든 문제에 동일한 모델과 reasoning 전략(CoT, PAL 등)을 적용하는 것은

비용 대비 효율이 낮습니다.

⚠️ 핵심 문제:

  • 어떤 모델(예: Qwen2.5-14B, QwQ-32B)과
  • 어떤 추론 전략(예: Chain-of-Thought, CoD, PAL, Vanilla)을 입력 난이도에 따라 동적으로 선택할 수 있는가?

🧩 2. 제안 방법: Route-To-Reason (RTR)

RTR은 모델 선택(Model Routing)추론 전략 선택(Strategy Routing)

통합적으로 수행하는 프레임워크입니다.

🔹 작동 개요 (Figure 4, page 4 참고)

  1. 입력 질문을 인코딩하여 의미적 벡터로 표현
  2. 모델과 전략의 표현 벡터를 학습 (성능·비용 특성 포함)
  3. 두 개의 예측기(MLP)로
    • 모델-전략 조합의 예상 성능
    • 예상 토큰 수(비용) 를 예측
  4. 이를 기반으로 Routing Table을 생성
  5. 성능(accuracy)과 비용(tokens)의 균형을 고려해 최적 조합을 선택

수식:

[

\text{score}{i,j,k} = \lambda \cdot \hat{a}{i,j,k} - (1 - \lambda) \cdot \hat{l}_{i,j,k}

]

여기서

  • ( \hat{a}_{i,j,k} ): 성능 예측값
  • ( \hat{l}_{i,j,k} ): 토큰 예측값
  • ( \lambda ): 성능 vs 비용의 가중 조정 파라미터

⚙️ 3. 데이터셋 및 실험 설계

📊 훈련 및 평가 데이터

구분데이터셋난이도설명
In-Distribution (ID)GSM8K, MMLU, Math, OlympiadBench쉬움~어려움수학, 과학, 상식 문제
Out-of-Distribution (OOD)SciQ, PIQA, ARC-C쉬움~어려움과학·상식 OOD 테스트

학습: 70% / 테스트: 30% 분할

평가 지표: 정확도(accuracy) + 평균 토큰 수(tokens)


🧠 4. 주요 실험 결과

In-Distribution (Table 2, page 7)

모델평균 정확도 (%)평균 토큰 수
Qwen2.5-3B56.0371.7
QwQ-32B80.02745.2
EmbedLLM81.91808.3
RTR (제안)82.51091.3

📈 결론:

  • 정확도는 가장 높은 수준 유지 (↑2.5%)
  • 토큰 사용량 60% 절감

🌍 Out-of-Distribution (Table 3, page 7)

모델평균 정확도 (%)평균 토큰 수
QwQ-32B93.71387.3
EmbedLLM93.21155.4
RTR (제안)94.2393.9

RTR은 새로운 도메인(OOD)에서도

정확도 유지 + 70% 비용 절감 효과를 보임.


🔍 5. 분석 및 해석

🧩 Ablation (Figure 5 & 6)

  • 모델과 전략을 텍스트 설명 + 학습 임베딩으로 함께 표현할 때 성능 예측 정확도가 최고 (76.1%)
  • 토큰 예측도 200~600 token 오차 내에서 60~80% 정확도 확보

⚖️ Routing 전략 비교 (Figure 7)

  • *고정 전략(CoT, PAL 등)**보다 RTR의 동적 선택이 일관되게 더 높은 효율
  • λ 조정으로 성능 중심 / 비용 중심 조절 가능

💬 6. 사례 연구 (Figure 8 & 11~13)

예시 문제에서:

  • QwQ-32B + CoT 조합 → 잘못된 답 + 4000 tokens 소모
  • RTR 선택(Qwen2.5-7B + CoD) → 정답 + 32 tokens

💡 RTR은 간단한 문제에서는 작은 모델+간단한 전략을,

어려운 문제에서는 큰 모델+깊은 전략을 선택함으로써

"Less is More" 원칙을 실현.


🧩 7. 관련 연구와 차별점

분야기존 접근RTR의 차별점
Model Routing단순 모델 선택 (RouteLLM, EmbedLLM 등)모델 + 전략의 동시 선택
Reasoning StrategyCoT, PAL, CoD 개별 전략 고정전략을 문제별로 동적 적용
Adaptive InferenceReinforcement tuning 기반추론/비용 예측 기반 경량 Routing

🔮 8. 결론 및 한계

기여점

  • 최초의 “모델 + 전략” 동시 Routing Framework
  • 다양한 모델·전략 조합에서 효율적 추론 가능
  • OOD에서도 강한 일반화 성능

⚠️ 한계 및 향후 연구

  • 현재는 단일 모델-전략 선택만 고려 → 다중 모델 협력 라우팅 확장 필요
  • 추론 외의 일반적 LLM 태스크(요약, 번역 등) 확장 필요

📘 핵심 요약

항목내용
제안 프레임워크Route-to-Reason (RTR)
핵심 아이디어모델 + 전략을 입력 난이도별로 동적 선택
주요 성과60% 이상 토큰 절감, 정확도 향상
강점비용 효율성 + 범용성 + Plug-and-Play 구조
실험 모델Qwen, DeepSeek, QwQ 등 7종
실험 전략CoT, PAL, CoD, Vanilla
공개 코드github.com/goodmanpzh/Route-To-Reason

profile
NLP 공부합니당

0개의 댓글