CARROT: A Cost-Aware Rate-Optimal Router

하임·2026년 1월 9일

Routing

목록 보기

16/44

https://export.arxiv.org/pdf/2502.03261

CARROT: A Cost-Aware Rate-Optimal Router

1. 개요

대형 언어 모델(LLM)의 비용과 성능 간 최적의 균형을 찾는 자동 라우팅 기법을 다룬 연구로, CARROT (Cost AwaRe Rate Optimal rouTer)을 제안한다.

CARROT는 쿼리에 적절한 모델을 비용 대비 최적의 성능 기준으로 선택하는 방식의 LLM 라우팅 기법으로, 기존의 비효율적인 LLM 라우팅 문제를 해결하고자 한다.

기존의 LLM 라우팅 기법은 비용과 성능을 모두 고려하지 못하는 한계가 있었음.
CARROT는 각 LLM의 비용과 성능을 추정한 후, 특정 목표(성능-비용 트레이드오프)에 맞게 라우팅을 수행.
SPROUT 데이터셋을 새롭게 구축하여 다양한 LLM 라우팅 평가를 가능하게 함.

2. 기존 연구 및 한계점

2.1. 기존 LLM 라우팅 기법

LLM 라우팅에는 크게 비예측(non-predictive) 라우팅과 예측 기반(predictive) 라우팅 두 가지 방법이 존재한다.

비예측 라우팅
- 여러 모델을 실행한 후, 가장 적절한 응답을 선택하는 방식.
- 예: Fusion of Experts (FoE), FrugalGPT.
- 단점: 모든 쿼리에 대해 여러 모델을 실행해야 하므로 비용이 과다하게 발생.
예측 기반 라우팅
- LLM의 성능을 예측하여 적절한 모델을 사전 선택하는 방식.
- 기존 연구에서는 비용 고려가 부족하거나, 이진(binary) 선택만 지원하는 방식이 많았음.
- 예: RouteLLM (Ong et al., 2024), RoRF (Jain et al., 2023).
- 단점: 이진 선택 방식은 유연성이 떨어지고 성능이 저하됨.

2.2. 기존 방법의 한계

비용을 고려하지 않는 방식이 많음 → 고성능 모델을 무조건 선택하는 경향이 있음.
이진 선택(binary choice) 라우팅은 적절한 모델을 선택하는 데 한계가 있음.
API 가격을 활용한 단순 비용 예측 방식 → 실제 모델 응답의 길이가 다르면 비용이 변동할 가능성이 큼.

3. CARROT: 비용-성능 최적화 라우팅 기법

3.1. 주요 특징

CARROT는 비용(cost)과 성능(performance)을 동시에 고려하여 최적의 LLM을 선택하는 새로운 라우팅 기법이다.

📌 CARROT의 핵심 요소

비용 및 성능 예측 (Metric Estimation)
- 각 모델의 성능과 비용을 예측하여 라우팅 기준을 생성.
- 비용: API 사용 요금, 토큰 길이 기반.
- 성능: 기존 벤치마크 성능과 문맥적 평가 기준 활용.
리스크 최소화 기반 최적 모델 선택
- 각 모델의 예상 비용과 성능을 결합하여 최적의 모델을 선택하는 리스크 최소화 기반 접근법 사용.
새로운 데이터셋 SPROUT 구축
- SPROUT (Smart Price-aware ROUTing) 데이터셋을 만들어 다양한 모델의 성능과 비용을 평가.
- Llama-3, GPT-4o, Mixtral 등의 최신 LLM 13개 포함.
- 45,000개 이상의 프롬프트를 활용하여 다양한 응용 사례에서 성능 검증.

4. 실험 및 결과

4.1. 성능 평가

CARROT는 RouterBench, Open LLM Leaderboard, SPROUT 데이터셋을 활용하여 실험을 진행했다.

📌 실험 결과 요약

RouterBench에서 GPT-4o와 유사한 성능을 절반 이하의 비용으로 달성.
Open LLM Leaderboard에서 최고 성능 모델보다 높은 효율성을 보임.
SPROUT에서 비용 대비 성능이 높은 모델을 선택하는 능력 확인.

📌 GPT-4o 대비 비용 절감 효과

30% 비용 수준에서 GPT-4o와 동등한 성능을 달성.
20% 비용 수준에서도 95% 이상의 성능 유지.

4.2. CARROT vs 기존 방법 비교

라우팅 기법	정확도	비용 절감 효과
CARROT (제안 기법)	최대 GPT-4o 수준	최대 70% 비용 절감
RouteLLM	낮음	제한적
RoRF	낮음	제한적
GPT-4o (비교 기준)	100%	비용 높음

👉 결론: 기존 방식보다 비용 대비 성능이 월등히 우수함.

5. 결론 및 향후 연구 방향

5.1. 결론

CARROT는 비용-성능 최적화를 고려한 새로운 LLM 라우팅 기법.
SPROUT 데이터셋을 구축하여 다양한 벤치마크에서 성능을 평가.
기존 LLM 라우팅 방법보다 더 나은 유연성과 비용 절감 효과를 보임.

5.2. 향후 연구

더 다양한 비용-성능 트레이드오프 시나리오 실험.
새로운 평가 기준(예: 응답의 품질, 문맥 이해도) 추가.
다양한 애플리케이션(예: 기업용 LLM, 도메인 특화 모델) 적용 실험.

📌 요약

CARROT는 비용과 성능을 최적화하여 적절한 LLM을 선택하는 새로운 라우팅 기법으로,

30% 비용 수준에서 GPT-4o와 동등한 성능을 유지하는 등 높은 비용 절감 효과를 입증했다.

SPROUT 데이터셋을 구축하여 평가를 진행했으며, 기존 LLM 라우팅 기법보다 성능이 뛰어나고 비용 효율적인 선택이 가능함을 입증했다. 🚀

하임

NLP 공부합니당

이전 포스트

LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading

다음 포스트

CARROT: A Cost-Aware Rate-Optimal Router

Routing

CARROT: A Cost-Aware Rate-Optimal Router

1. 개요

2. 기존 연구 및 한계점

2.1. 기존 LLM 라우팅 기법

2.2. 기존 방법의 한계

3. CARROT: 비용-성능 최적화 라우팅 기법

3.1. 주요 특징

4. 실험 및 결과

4.1. 성능 평가

4.2. CARROT vs 기존 방법 비교

5. 결론 및 향후 연구 방향

5.1. 결론

5.2. 향후 연구

📌 요약

LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading

MixLLM: Mixed Large Language Models

0개의 댓글