OmniRouter: Budget and Performance Controllable Multi-LLM Routing

하임·2026년 1월 9일

Routing

목록 보기
35/44

https://arxiv.org/pdf/2502.20576


핵심 한 줄

OmniRouter는 질의마다 “그때그때 최선”을 고르는 탐욕적 라우팅을 버리고, 전역 성능·예산 제약을 동시에 만족시키는 제약최적화(constrained optimization) 로 라우팅을 풀어 정확도는 올리고 비용은 내리는 프레임워크입니다. 자체 하이브리드 예측기(학습+검색) 로 각 모델의 성공확률(능력)비용(토큰 길이→금액) 을 예측하고, 라그랑주 듀얼글로벌 최적 배정을 구합니다.


왜 필요한가 (배경)

기존 라우터는 각 질의를 독립적으로 처리하여 “지금 당장 가장 잘할 것 같은 모델”을 고릅니다. 이러면 쉬운 질의가 강한(비싼) 모델의 슬롯을 선점해 어려운 질의가 밀려 실패하는 등 시스템 전체 최적화 실패가 생깁니다(그림 1의 예). OmniRouter는 질의 분포와 모델 동시접속 제한(Concurrency), 목표 품질(α) 등을 전역적으로 고려하여 배정합니다.


문제 정식화

질의 i=1..Ni=1..N, 모델 j=1..Mj=1..M.

  • ai,ja_{i,j}: 모델 jj가 질의 ii를 성공적으로 답할 확률/능력
  • ci,jc_{i,j}: 금전 비용(토큰 비용)
  • 제약: 평균 성능 ≥ α, 모델 동시접속 ≤ L_j, 각 질의는 정확히 한 모델에 배정

목표: 총 비용 ∑ci,jxi,j\sum c{i,j}x{i,j} 최소, 단 제약(성능/용량/배정)을 만족. 공식은 논문 식 (1)에 제시됩니다.


방법: 두 단계 접근

1) 하이브리드 예측기(Hybrid Retrieval-Augmented Predictor)

예측해야 하는 불확실 변수 두 가지: 능력 ai,ja_{i,j}, 출력 길이(→비용) li,jl_{i,j}. 두 신호원을 가중 합하여 더 정확히 예측합니다.

  • 학습 기반: BERT 임베딩으로 질의 EqE_q모델 설명 ElE_l 를 인코딩.
    • 능력 헤드: σ(W1(EqEl)+b1)ai,ja^i,j\sigma(W_1(E_q\cdot E_l)+b_1) → a^i,j\hat a_{i,j}
    • 길이 헤드: 길이를 버킷 분류(softmax), 예측 길이 l^i,j\hat l_{i,j} 산출
  • 검색 기반: 벡터DB에서 질의 유사 이력 Top-k를 찾아, 과거의 정답률/길이코사인 가중 평균으로 추정(aret,lreta^\text{ret}, l^\text{ret}).
  • 융합:    a=γa^+(1γ)aret  ,c=δtp(l)+(1δ)tp(lret)  c=δtp(l^)+(1δ)tp(lret)\;a = \gamma\,\hat a + (1-\gamma)\,a^\text{ret}\;,  c=δ tp(l^)+(1−δ) tp(lret)\;c = \delta\,t_p(\hat l) + (1-\delta)\,t_p(l^\text{ret}) (모델별 토큰 단가 맵 tpt_p 로 비용 변환). 실험 기본값 k=16,k{=}16, γ=δ=0.5.\gamma{=}\delta{=}0.5.

2) 제약 최적화(Constrained Optimizer)

라그랑주 승수 λ1(품질), λ2,j (각 모델 용량)로 듀얼 문제를 풀며, 승수를 그라디언트로 갱신:

λ1max(λ1+α1(1Nax+α),0),λ2,jmax(λ2,j+α2(ixi,jLj),0)\lambda_1 \leftarrow \max\big(\lambda_1 + \alpha_1(-\tfrac{1}{N}\sum a x + \alpha),\,0\big),\quad \lambda_{2,j} \leftarrow \max\big(\lambda_{2,j} + \alpha_2(\sum_i x_{i,j} - L_j),\,0\big)

고정된 λ\lambda에서 각 질의 ii의 최적 모델은 “조정비용” (ci,jλ1Nai,j+λ2,j)(c_{i,j} - \tfrac{\lambda_1}{N} a_{i,j} + \lambda_{2,j}) 를 최소화하는 j.

  • 해석: λ1↑이면 품질 미달 → 능력 높은 모델 선호. λ2,j이면 모델 jj 과부하 → 그 모델 기피.
  • 정리: λ1*>0 이면 평균 성능 제약이 등식으로 정확히 맞춰짐(1Nax=α\tfrac{1}{N}\sum a x = \alpha): 필요한 만큼만 “비싼 모델”을 씁니다(과투자 방지).

데이터셋 & 실험 설정

OmniRouteEval (새 벤치마크)

  • 문항 2.7k: MMLU, GPQA, MATH-500, GSM8K에서 수집.
  • 후보 10모델: Qwen2.5(7B/14B/32B/72B), Gemma2(9B/27B), GPT-4o-mini, GPT-4o, Gemini-1.5-flash, Claude-3.5-Sonnet-2.
  • 모델별 정오토큰 사용량을 기록(평가 심판은 Llama-3.1-70B-Instruct; 후보 풀에는 제외).
  • 난이도 라벨: Easy(78.4%) / Medium(15.2%) / Hard(6.4%) — “정답 가능한 모델 수”로 구분.

환경/설정

  • 8×RTX A5000, Ollama 기반 멀티-LLM 서빙, Continuous-batching 시뮬레이션.
  • 트래픽: 매 0.1s에 질의 n∈{1,2,3,4}n\in{1,2,3,4} 추가, 1s마다 라우팅.
  • 기본 제약: 품질 α=0.75, 동시접속 L=4(모든 모델 동일).
  • 예측기: 최대 출력 1024 토큰, Top-k=16, γ=δ=0.5\gamma=\delta=0.5; 비용은 LiteLLM cost map 기준.

결과 요약

전반적 성능(표 2)

  • 정확도: OmniRouter 75.19% (최고),
  • 비용($/질의): 0.0515 (최저). 비교: RouterDC 73.89% / 0.0874, EmbedLLM 72.96% / 0.0896, CARROT 72.41% / 0.0680 등. 즉 정확도는 +1.3~6.48%p, 비용은 최소 −10.15% 이상 절감.

예측기 자체 성능(표 3)

  • 능력 예측 정확도 0.813 (RouterDC 0.761 대비 +5.2%p)
  • 길이 버킷 정확도: 정확 일치 0.452, ±1 버킷 0.806 — 다른 방법 대비 +13%p 이상. 예측 개선이 곧 라우팅 품질 향상으로 연결됩니다.

난이도별 라우팅 행동(그림 3)

  • Easy(전체의 78.4%): 49.2%약한 모델군에 배정(비용 절감).
  • Medium: 강/약 모델 균형 배정.
  • Hard: 강한 모델로 4:1 비율로 우선 배정(성능 보장). 질의 난이도와 모델 능력 매칭이 전역 최적화로 자연스럽게 형성됩니다.

제약 변화에 대한 조절성(Controllability) (그림 4, 5)

  • 성능 α↑(0.70→0.90): 기존 탐욕 라우터는 비용 폭등(예: EmbedLLM 비용 $0.229까지 상승), OmniRouter는 완만한 증가(≈+48%) 및 고α 영역에서 비용 억제.
  • 동시접속 L↓(8→1): 베이스라인은 비용↑·정확도↓가 컸지만 OmniRouter는 73.8% 정확도 유지 및 중간 비용 증가에 그침. 자원 제약 하에서도 품질/비용 균형 유지.

소거 실험(Ablation, 표 4)

  • 검색 제거(w/o Retrieval): 능력 −7.6%p, 길이 −10.2%p → 정확도 −4.4%p, 비용 +35.5% 악화.
  • 학습 제거(w/o Training): 능력 −10.5%p지만 정확도 하락은 −2.5%p로 제한(검색만으로도 일정 수준 유지). 두 축의 결합이 최선임을 확인.

무엇이 새로운가 / 의의

  1. 라우팅을 전역 제약최적화 문제로 재정의 → 목표 품질을 딱 맞춰 비용을 최소화(듀얼 승수의 의미론이 명확).
  2. 학습+검색 결합 예측기일반화(학습)사례기반 정확성(검색) 을 동시에 확보.
  3. 데이터셋(OmniRouteEval) 공개: 정확도+토큰10 LLM에 걸쳐 표준화 측정하여 효율·효과 동시 평가를 가능케 함.

한계/주의

  • 예측 품질 의존: a,ca, c 예측 오차가 누적되면 최적화가 왜곡될 수 있음(그래서 검색·학습 융합과 버킷화로 완화).
  • 심판(LLM-judge) 편향: 정오 판정에 Llama-3.1-70B를 사용 — 실무에선 휴먼 검증/샘플링 점검 권장.
  • 동시접속 제약 균일화(실험 기본 L=4): 실제 서비스는 모델마다 상이한 스루풋/쿼터이므로 모델별 L_j 설정 필요.

profile
NLP 공부합니당

0개의 댓글