RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs

하임·2026년 1월 9일

Routing

목록 보기

19/44

🔍 1. 연구 배경 및 목적

Routing LLMs란? 여러 개의 서로 다른 LLM 중 하나를 라우터(router)를 통해 선택해 특정 입력에 가장 적합한 모델로 전달하는 방식입니다. 이는 Mixture-of-Experts(MoE)보다 더 높은 수준의 구조에서 동작하는 일종의 모델 수준의 MoE라고 할 수 있습니다.
기존의 문제점
- 공개된 라우팅 벤치마크 부족
- 평가 대상 모델 수 부족
- 평가 다양성 부족
본 논문의 목적
- RouterEval이라는 대규모 벤치마크를 제안해 라우터 성능을 체계적으로 비교·분석
- 모델 수준의 스케일업(model-level scaling-up) 현상을 관찰

🧠 2. 핵심 개념 정리

LLM 후보 풀: 서로 다른 LLM들이 모여 있는 집합
Router: 주어진 입력을 가장 적절한 LLM으로 매핑하는 분류기
모델 수준 스케일업: 후보 LLM의 수가 늘어날수록 (좋은 라우터가 있을 경우) 전체 성능이 빠르게 상승함
Oracle Router: 항상 최적의 모델을 선택할 수 있는 이상적 라우터
ro(p): 확률 p로 oracle router처럼 행동하고, 1-p로는 랜덤 선택을 하는 가상의 라우터

📊 3. 주요 실험 및 발견

(1) 모델 수준 스케일업 현상

LLM 후보 수가 증가할수록 라우팅을 통한 성능이 향상됨
라우터의 성능이 충분히 좋을 경우, 성능이 GPT-4 같은 강력한 단일 모델을 능가

(2) 약한 LLM도 충분히 유용함

단독으로는 성능이 낮은 오픈소스 모델들이라도, 라우팅을 통해 상호 보완할 수 있음

(3) 적은 수의 후보로도 높은 성능

m=3~10인 상황에서도 GPT-4보다 나은 성능을 보일 수 있음
실질적인 실행 비용 절감 가능

🧪 4. RouterEval 벤치마크 구성

12개 벤치마크 포함 (MMLU, TruthfulQA, ARC, BBH 등)
8500개 이상의 LLM 성능 기록 기반 (총 2억 개 이상의 성능 레코드)
다양한 난이도 구성:
- Easy: m ∈ {3, 5}
- Hard: m ∈ {10, 100, 1000}
3가지 후보군 조합:
- All-strong: 상위 모델만 포함
- All-weak: 하위 모델만 포함
- Strong-to-weak: 다양한 성능 모델 포함

📐 5. 평가 방식

(1) 성능 지표

µo(rθ): 라우터가 선택한 모델들의 평균 성능
VR: GPT-4 등 참조 모델 대비 상대 성능
VB: 후보 모델 중 최고 성능 대비 상대 성능
Ep (엔트로피): 라우터 선택 분포의 다양성 (낮으면 편향 있음)

(2) 실험 결과

대부분의 기존 라우터는 GPT-4 수준 성능에 미치지 못함 (VR ≤ 1, VB ≤ 1)
많은 라우터는 특정 모델에 편향되어 선택함 (Ep 낮음)

🧭 6. 분석 및 고찰

(1) 다른 패러다임과 비교

추천 시스템과 유사
Ensemble 방법과 비교해 계산 비용 절감
Model Fusion, MoE와도 통합 가능성 있음

(2) 라우터 성능 향상 방안

데이터 증강, 프리트레이닝, Few-shot 학습 등 활용 가능
추천 시스템에서 쓰이는 기술(Representation Learning, Causal Inference 등)도 활용 가능

📌 7. 결론 및 향후 과제

Routing LLMs는 모델 수준에서의 스케일업이 가능한 매우 유망한 패러다임
RouterEval은 라우터 연구의 표준 벤치마크로 기능할 수 있음
여전히 라우터 설계에 많은 개선 여지가 있음
미래 연구에서는 다목적 최적화(성능 + 비용 + 환각률 등)로 확장 가능

🔗 프로젝트 링크

공식 깃허브: https://github.com/MilkThink-Lab/RouterEval

✅ 요약 문장

RouterEval 논문은 다양한 LLM 중 최적의 모델을 선택하는 라우팅 기법이 강력한 단일 모델보다 나은 성능을 달성할 수 있다는 점을 실험적으로 입증하며, 이를 위해 대규모 성능 데이터셋과 벤치마크를 제안하는 최신 연구입니다.

논문 "RouterEval"의 구현 방법은 크게 다음과 같은 3가지 축을 중심으로 이루어집니다:

라우터 학습 구조 설계
RouterEval 데이터셋 구축
성능 평가 및 실험 구성

각 항목을 아래에서 자세히 설명드릴게요.

1. 🧠 라우터 학습 구조 (Router Training Structure)

📌 기본 개념

라우터는 입력 문장에 대해 가장 적절한 LLM 후보를 분류(Classification)하는 모델입니다. 이 구조는 전통적인 m-class classification 문제로 변환됩니다.

📌 수식 기반 설명

주어진 입력 샘플: sjs_jsj
입력의 임베딩 표현: $\kappa(s_j)$ (예: RoBERTa, SBERT 등으로 인코딩)
후보 LLM 수: m
정답 벡터: $v_j \in \{0,1\}^m$ → 해당 입력에 대해 가장 성능이 좋은 LLM의 위치가 1로 표시됨.

📌 라우터의 학습 목표

라우터 $r_\theta$ 는 다음과 같은 함수로 학습됩니다:

$r_\theta[\kappa(s_j)] \rightarrow v_j$

학습 대상은 입력과 선택 벡터 쌍 $n\{(\kappa(s_j), v_j)\}_{j=1}^n$
Loss function: Cross Entropy 또는 Binary Cross Entropy (다중 후보 지원 시)

2. 🧱 RouterEval 데이터셋 구성

RouterEval은 라우터를 학습하고 평가하기 위한 대규모 라우팅 데이터셋으로 구성되어 있습니다.

✅ 포함된 요소

항목	내용
📊 총 성능 기록	약 2억 건 이상
🧪 LLM 개수	약 8,500개 모델
🔬 벤치마크	12개 (MMLU, ARC, TruthfulQA, GSM8k, BBH 등)
🧩 후보군	All-strong, All-weak, Strong-to-weak 그룹
📈 후보 수 (m)	Easy: 3 or 5 / Hard: 10, 100, 1000

✅ 데이터 포맷

입력 샘플 sjs_jsj
벤치마크에서의 각 모델의 성능
선택 벡터 vjv_jvj: 각 모델이 이 입력에 대해 상위 95% 이내 성능이면 1로 표시

✅ 임베딩 방식

RoBERTa
Sentence-BERT
Longformer
RoBERTa (last hidden layer)

→ 인코딩기 κ는 자유롭게 선택 가능하며, 제공된 코드에서 손쉽게 바꿀 수 있음

3. 🧪 실험 및 평가 구현

📌 주요 라우터 모델 (Baseline)

LinearR: 선형 분류기
MLPR: 다층 퍼셉트론
C-RoBERTa: Classifier 기반 fine-tuned RoBERTa
MLC: Multi-label classifier
PRknn: k-NN 기반 추천 방식

📌 라우터 성능 평가 지표

지표	설명
µₒ(rθ)	라우터가 선택한 모델의 평균 성능
VR	참조 LLM 대비 상대 성능 (ex: GPT-4 대비)
VB	후보군 내 가장 좋은 단일 모델 대비 성능
Ep	예측 분포의 엔트로피 (라우터가 특정 모델에 편향됐는지 측정)

하임

NLP 공부합니당

이전 포스트

Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing

다음 포스트