LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing

하임·2026년 1월 9일

Routing

목록 보기

13/44

https://export.arxiv.org/pdf/2502.02743

LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing

1. 개요

최근 대형 언어 모델(LLM)의 발전으로 다양한 성능과 비용 구조를 갖춘 모델들이 등장했다. 그러나 최적의 LLM을 선택하는 것은 성능과 비용 간의 균형을 맞추는 어려운 문제다. 본 연구에서는 LLM 선택을 멀티 암드 밴딧(Multi-Armed Bandit) 문제로 정의하고, 사용자의 선호도를 반영한 동적 라우팅(preference-conditioned dynamic routing) 기법을 제안한다.

이 접근 방식은 다음과 같은 특징을 갖는다:

사용자 선호도 반영: 사용자가 비용과 성능 간의 균형을 직접 조정 가능
새로운 모델과의 일반화: 새로운 LLM이 등장해도 빠르게 적응 가능
비용 절감과 성능 유지: 기존 방법 대비 최대 27% 비용 절감을 달성하면서도 성능을 유지

2. 기존 연구와 한계점

기존 LLM 선택 기법들은 크게 세 가지 방식으로 나뉜다.

앙상블(Ensemble) 방법:
- 여러 LLM의 출력을 조합하여 성능을 개선하지만, 비용과 지연(latency)이 증가.
계단식 모델 선택(Cascading):
- 비용이 저렴한 모델부터 실행 후 필요할 경우 더 강력한 모델로 이동.
- 하지만 복잡한 쿼리에서 지연이 발생.
직접 라우팅(Direct Routing):
- 특정 모델을 직접 선택하지만, 새로운 모델에 적응하는 능력이 부족.

위 방법들의 한계를 해결하기 위해 멀티 암드 밴딧(MAB) 기반의 동적 라우팅을 도입하였다.

3. 제안하는 방법

3.1. 문제 정의

쿼리 공간 (X)와 (K)개의 LLM 집합 ({Mk}{k=1}^{K}) 가정.
모델 (M_k)의 응답 품질을 나타내는 점수 (s(x, k))와 비용 (c_k) 정의.
정책 (\pi(x))가 각 쿼리에 대해 최적의 모델을 선택.
성능과 비용을 고려한 보상 벡터 (r(x, k)) 설정: [
r(x, k) = [s(x, k), -c_k]
]
목표: 사용자 선호도 (\omega = [\omega_1, \omega_2]) 에 따라 최적의 모델 선택.

3.2. 모델 ID 벡터 (Model Identity Vector)

각 LLM의 성능을 벡터화하여 표현하는 모델 ID 벡터를 생성:

*항목 반응 이론(IRT, Item Response Theory)**을 활용해 모델의 능력 벡터 (I_k) 학습.
프롬프트 임베딩 (e_n) 을 활용하여 새로운 쿼리에도 일반화 가능.

3.3. 동적 라우팅 정책 (Preference-Conditioned Routing Policy)

확률적 정책 학습:
- 확률적으로 모델을 선택해 탐색과 활용(exploration vs. exploitation) 균형 유지.
액션 공간 인식(Action-Space Awareness):
- 새로운 LLM이 등장해도 자동으로 통합 가능.
사용자 선호도 반영:
- 성능과 비용 간의 가중치를 사용자가 직접 설정 가능.
PPO 기반 최적화:
- Proximal Policy Optimization (PPO) 알고리즘을 사용하여 정책 최적화.

3.4. 새로운 모델 추가 시 빠른 적응

새로운 LLM을 추가할 때:

20~50개 정도의 대표적인 프롬프트만 평가하여 모델의 능력을 측정.
모델 ID 벡터를 업데이트하여 기존 시스템에 통합.
정책 재학습 없이 곧바로 활용 가능.

4. 실험 결과

4.1. 벤치마크 데이터셋

HELM, AlpacaEval, OpenLLM Leaderboard 등 주요 LLM 평가 데이터셋 사용.
다양한 모델(GPT-4, Mixtral-8x7B, LLaMA 3 등)과 비교 수행.

4.2. 주요 성능 결과

비용 대비 성능 향상
- 기존 FrugalGPT, RouteLLM 대비 최대 27% 비용 절감.
- 예: AlpacaEval 2.0 기준 GPT-4/Mixtral 조합에서 $35 → $31로 비용 절감.
- MMLU 기준 비용 $33 → $24로 27% 절감, 성능 유지.
새로운 모델에 대한 빠른 적응
- 새로운 모델을 추가할 때 50개 이하의 프롬프트만 평가해도 기존 방법과 유사한 성능 유지.
- 새로운 LLM을 학습 데이터 없이도 정책이 빠르게 적용됨을 입증.
정책 학습의 일반화 성능
- 다양한 사용자 선호도(비용 vs 성능 트레이드오프)에 대해 적응 가능.
- 다양한 모델 조합에서도 정책이 성능을 유지 (PPO 기반의 개별 학습보다 성능 우수).

5. 결론 및 향후 연구 방향

5.1. 결론

LLM 선택 문제를 멀티 암드 밴딧 기반의 최적화 문제로 정식화.
사용자 선호도 기반의 동적 라우팅 정책을 제안.
최대 27% 비용 절감 및 새로운 LLM에 대한 빠른 적응 가능성 확인.
기업이 비용을 절감하면서도 최적의 성능을 유지할 수 있도록 지원.

5.2. 향후 연구 방향

온라인 학습 도입:
- 실시간 사용자 피드백을 반영하여 동적으로 정책 개선.
쿼리별 비용 예측 개선:
- 현재는 고정된 비용을 사용하나, 실제 쿼리 길이와 복잡성을 반영한 비용 예측 모델 개발.
사용자 친화적 인터페이스 제공:
- 숫자가 아닌 직관적인 방식으로 비용-성능 트레이드오프를 조절하는 기능 추가.
추론 보조 도구 활용:
- 모델 선택 과정에서 검색, 외부 API 호출 등의 기능을 포함하여 성능 강화.

📌 요약

LLM Bandit은 비용 대비 성능 최적화를 목표로 하는 LLM 라우팅 기법이다.

기존 방식의 한계를 극복하고, 멀티 암드 밴딧(MAB) 기반의 동적 라우팅 기법을 적용하여 최대 27% 비용 절감을 실현하면서도 성능을 유지했다. 사용자 선호도 반영, 새로운 모델에 대한 빠른 적응, 일반화 성능 강화 등의 강점을 지니며, 향후 온라인 학습, 비용 예측 개선, 사용자 친화적 조정 기능 등의 연구 방향이 남아 있다.