https://arxiv.org/pdf/2506.22716
왜 나왔나(배경)
기존 라우팅은 “질의→한 번 호출→한 개 답” 구조라, 작은 모델이 잘할 수 있는 질의도 자주 큰 모델로 보내 비용 절감이 제한됐습니다. 저자들은 “작은 모델이라도 best-of-n(여러 샘플 중 최선 선택)을 쓰면 품질이 크게 오르며, 여전히 큰 모델 1샷보다 싸다”는 점에 착안해, 모델 선택 + 샘플 개수 n까지 함께 결정하는 라우팅을 제안합니다. 결과적으로 최대 60% 비용 절감에 성능 저하 <1%를 달성합니다.
무엇을 제안했나(핵심)
BEST-Route는 두 축으로 구성됩니다.
- 저비용 Best-of-n 샘플링
- 작은 프록시 보상모델 R_proxy(DeBERTa-v3-large 파인튠)를 학습해 n개 응답의 순위만 잘 보존하도록 쌍대 순위손실로 훈련합니다(식 (1)). 추론 시 n개를 생성→R_proxy로 최고 점수를 선택합니다.
- n이 커질수록 선택된 응답의 armoRM(품질)이 꾸준히 상승함을 실험으로 확인합니다(그림 2).
- 멀티-헤드 라우터(질의 난이도 인지)
- 하나의 공유 인코더 + K×N개의 가벼운 헤드가 “모델 k에서 best-of-n이 레퍼런스(예: GPT-4o)를 ‘matched’할 확률” pk,np{k,n}을 예측합니다. 사용자는 임계치 t를 주면, **p{k,n}≥t인 조합 중 토큰 단가×예상 길이로 계산한 비용이 최소**인 (모델, n)을 선택합니다(아래 알고리즘 1 요지). 임계치를 못 넘기면 레퍼런스로 폴백.
알고리즘 1(요지)
① 모든 (모델, n)에 대해 match 확률 p_{k,n} 예측 → ② 임계치 t 이상만 남기고 비용(입력 1회+출력 n회 평균 길이 기반) 추정 → ③ 최저 비용 조합 선택 → ④ 그 (모델, n)으로 n개 생성 후 R_proxy로 최고 응답 반환. 비용 추정은 학습 분할 평균 출력 길이를 써도 오차가 매우 작음(대부분 $0.003 미만).
실험 설정(요점)
- 데이터: QA/코딩/세이프티 등 1만 샘플(8k/1k/1k), 각 예시에 대해 8개 LLM으로 최대 20개 응답 생성해 학습/평가. 품질 평가는 armoRM(Llama3-8B RM) 사용.
- 비용: 입력/출력 토큰 단가로 USD 비용 산정(표 6).
무엇이 좋아졌나(결과)
- 메인 비교(표 1, 그림 3/4/5): 기존 N-class/N-label/클러스터 라우팅은 대체로 레퍼런스 모델로 쏠림(절감 거의 없음) 또는 절감 시 품질 큰 하락. BEST-Route는 60% 절감에 0.8%p 품질 하락으로 우월한 비용-성능 곡선을 보입니다. 또한 best-of-n이 작은 모델의 성능을 끌어올려 트레이드오프를 크게 개선합니다.
- 전송량 분배/전문화(코딩): 코드 전용 모델(Codestral-22B) 추가 시 트래픽이 전문 모델로 이동하며 동일 비용에서 더 높은 품질을 달성—라우팅이 성능 향상 자체에도 기여할 수 있음을 보임.
- 지연시간 오버헤드: n=20에서도 매치확률 예측 0.04s + 보상모델 0.58s 수준으로, 가장 빠른 LLM 추론보다 18.7× 빠른 부가 오버헤드에 불과. n을 키워도 라우팅 오버헤드는 미미.
- OOD 일반화/다른 지표: MT-Bench에서도 같은 경향(60% 절감·1.59%p 하락). BLEU/ROUGE 기준으로도 타 방법 대비 낮은 품질 손실로 절감.
- 캐스케이드 대비: 모델 캐스케이드는 여러 LLM을 순차 호출해 비용이 불리. BEST-Route가 동일 절감에서 품질 손실을 대폭 줄임(예: 60% 절감 시 0.8%p vs 6~7%p).