https://arxiv.org/pdf/2502.20576
핵심 한 줄
OmniRouter는 질의마다 “그때그때 최선”을 고르는 탐욕적 라우팅을 버리고, 전역 성능·예산 제약을 동시에 만족시키는 제약최적화(constrained optimization) 로 라우팅을 풀어 정확도는 올리고 비용은 내리는 프레임워크입니다. 자체 하이브리드 예측기(학습+검색) 로 각 모델의 성공확률(능력) 과 비용(토큰 길이→금액) 을 예측하고, 라그랑주 듀얼로 글로벌 최적 배정을 구합니다.
왜 필요한가 (배경)
기존 라우터는 각 질의를 독립적으로 처리하여 “지금 당장 가장 잘할 것 같은 모델”을 고릅니다. 이러면 쉬운 질의가 강한(비싼) 모델의 슬롯을 선점해 어려운 질의가 밀려 실패하는 등 시스템 전체 최적화 실패가 생깁니다(그림 1의 예). OmniRouter는 질의 분포와 모델 동시접속 제한(Concurrency), 목표 품질(α) 등을 전역적으로 고려하여 배정합니다.
문제 정식화
질의 i=1..Ni=1..N, 모델 j=1..Mj=1..M.
- ai,j: 모델 jj가 질의 ii를 성공적으로 답할 확률/능력
- ci,j: 금전 비용(토큰 비용)
- 제약: 평균 성능 ≥ α, 모델 동시접속 ≤ L_j, 각 질의는 정확히 한 모델에 배정
목표: 총 비용 ∑ci,jxi,j\sum c{i,j}x{i,j} 최소, 단 제약(성능/용량/배정)을 만족. 공식은 논문 식 (1)에 제시됩니다.
방법: 두 단계 접근
1) 하이브리드 예측기(Hybrid Retrieval-Augmented Predictor)
예측해야 하는 불확실 변수 두 가지: 능력 ai,ja_{i,j}, 출력 길이(→비용) li,j. 두 신호원을 가중 합하여 더 정확히 예측합니다.
- 학습 기반: BERT 임베딩으로 질의 EqE_q 와 모델 설명 ElE_l 를 인코딩.
- 능력 헤드: σ(W1(Eq⋅El)+b1)→ai,ja^i,j
- 길이 헤드: 길이를 버킷 분류(softmax), 예측 길이 l^i,j\hat l_{i,j} 산출
- 검색 기반: 벡터DB에서 질의 유사 이력 Top-k를 찾아, 과거의 정답률/길이를 코사인 가중 평균으로 추정(aret,lreta^\text{ret}, l^\text{ret}).
- 융합: a=γa^+(1−γ)aret, c=δ tp(l)+(1−δ) tp(lret)c=δtp(l^)+(1−δ)tp(lret) (모델별 토큰 단가 맵 tpt_p 로 비용 변환). 실험 기본값 k=16, γ=δ=0.5.
2) 제약 최적화(Constrained Optimizer)
라그랑주 승수 λ1(품질), λ2,j (각 모델 용량)로 듀얼 문제를 풀며, 승수를 그라디언트로 갱신:
λ1←max(λ1+α1(−N1∑ax+α),0),λ2,j←max(λ2,j+α2(∑ixi,j−Lj),0)
고정된 λ\lambda에서 각 질의 ii의 최적 모델은 “조정비용” (ci,j−Nλ1ai,j+λ2,j) 를 최소화하는 j.
- 해석: λ1↑이면 품질 미달 → 능력 높은 모델 선호. λ2,j이면 모델 jj 과부하 → 그 모델 기피.
- 정리: λ1*>0 이면 평균 성능 제약이 등식으로 정확히 맞춰짐(N1∑ax=α): 필요한 만큼만 “비싼 모델”을 씁니다(과투자 방지).
데이터셋 & 실험 설정
OmniRouteEval (새 벤치마크)
- 문항 2.7k: MMLU, GPQA, MATH-500, GSM8K에서 수집.
- 후보 10모델: Qwen2.5(7B/14B/32B/72B), Gemma2(9B/27B), GPT-4o-mini, GPT-4o, Gemini-1.5-flash, Claude-3.5-Sonnet-2.
- 각 모델별 정오와 토큰 사용량을 기록(평가 심판은 Llama-3.1-70B-Instruct; 후보 풀에는 제외).
- 난이도 라벨: Easy(78.4%) / Medium(15.2%) / Hard(6.4%) — “정답 가능한 모델 수”로 구분.
환경/설정
- 8×RTX A5000, Ollama 기반 멀티-LLM 서빙, Continuous-batching 시뮬레이션.
- 트래픽: 매 0.1s에 질의 n∈{1,2,3,4}n\in{1,2,3,4} 추가, 1s마다 라우팅.
- 기본 제약: 품질 α=0.75, 동시접속 L=4(모든 모델 동일).
- 예측기: 최대 출력 1024 토큰, Top-k=16, γ=δ=0.5\gamma=\delta=0.5; 비용은 LiteLLM cost map 기준.
결과 요약
전반적 성능(표 2)
- 정확도: OmniRouter 75.19% (최고),
- 비용($/질의): 0.0515 (최저). 비교: RouterDC 73.89% / 0.0874, EmbedLLM 72.96% / 0.0896, CARROT 72.41% / 0.0680 등. 즉 정확도는 +1.3~6.48%p, 비용은 최소 −10.15% 이상 절감.
예측기 자체 성능(표 3)
- 능력 예측 정확도 0.813 (RouterDC 0.761 대비 +5.2%p)
- 길이 버킷 정확도: 정확 일치 0.452, ±1 버킷 0.806 — 다른 방법 대비 +13%p 이상. 예측 개선이 곧 라우팅 품질 향상으로 연결됩니다.
난이도별 라우팅 행동(그림 3)
- Easy(전체의 78.4%): 49.2%를 약한 모델군에 배정(비용 절감).
- Medium: 강/약 모델 균형 배정.
- Hard: 강한 모델로 4:1 비율로 우선 배정(성능 보장). 질의 난이도와 모델 능력 매칭이 전역 최적화로 자연스럽게 형성됩니다.
제약 변화에 대한 조절성(Controllability) (그림 4, 5)
- 성능 α↑(0.70→0.90): 기존 탐욕 라우터는 비용 폭등(예: EmbedLLM 비용 $0.229까지 상승), OmniRouter는 완만한 증가(≈+48%) 및 고α 영역에서 비용 억제.
- 동시접속 L↓(8→1): 베이스라인은 비용↑·정확도↓가 컸지만 OmniRouter는 73.8% 정확도 유지 및 중간 비용 증가에 그침. 자원 제약 하에서도 품질/비용 균형 유지.
소거 실험(Ablation, 표 4)
- 검색 제거(w/o Retrieval): 능력 −7.6%p, 길이 −10.2%p → 정확도 −4.4%p, 비용 +35.5% 악화.
- 학습 제거(w/o Training): 능력 −10.5%p지만 정확도 하락은 −2.5%p로 제한(검색만으로도 일정 수준 유지). 두 축의 결합이 최선임을 확인.
무엇이 새로운가 / 의의
- 라우팅을 전역 제약최적화 문제로 재정의 → 목표 품질을 딱 맞춰 비용을 최소화(듀얼 승수의 의미론이 명확).
- 학습+검색 결합 예측기로 일반화(학습)와 사례기반 정확성(검색) 을 동시에 확보.
- 데이터셋(OmniRouteEval) 공개: 정확도+토큰을 10 LLM에 걸쳐 표준화 측정하여 효율·효과 동시 평가를 가능케 함.
한계/주의
- 예측 품질 의존: a,ca, c 예측 오차가 누적되면 최적화가 왜곡될 수 있음(그래서 검색·학습 융합과 버킷화로 완화).
- 심판(LLM-judge) 편향: 정오 판정에 Llama-3.1-70B를 사용 — 실무에선 휴먼 검증/샘플링 점검 권장.
- 동시접속 제약 균일화(실험 기본 L=4): 실제 서비스는 모델마다 상이한 스루풋/쿼터이므로 모델별 L_j 설정 필요.