https://export.arxiv.org/pdf/2502.18482
MixLLM: Mixed Large Language Models에서의 동적 라우팅 방법론
1. 개요
MixLLM은 다양한 대형 언어 모델(LLM)의 장점을 활용하여 각 쿼리에 대해 최적의 모델을 선택하는 동적 라우팅 시스템입니다. 이는 응답 품질, 비용, 대기 시간 간의 균형을 맞추는 것이 목표이며, 주요 기여점은 다음과 같습니다.
- 태그 기반 임베딩 강화(Query Embedding Enhancement): InsTag 모델을 사용하여 쿼리 태그를 생성하고, 이를 이용해 쿼리 표현을 개선하여 라우팅 성능을 향상시킴.
- LLM별 예측 모델 구축(LLM-Specific Prediction Models): 각 LLM의 응답 품질과 비용을 독립적으로 예측하는 경량화된 모델을 설계.
- 메타 의사결정기(Meta Decision Maker) 도입: 예측된 품질, 비용 및 대기 시간의 균형을 조절하는 결정 메커니즘을 개발.
- 지속적 학습(Continual Learning) 지원: 새로운 쿼리와 사용자 피드백을 지속적으로 반영하여 성능을 향상.
MixLLM은 실험을 통해 GPT-4 품질의 97.25%를 달성하면서도 비용은 24.18%에 불과한 효과를 보였습니다.
2. 기존 연구
LLM 라우팅 기법은 크게 비예측적(Non-Predictive) 방식과 예측적(Predictive) 방식으로 나뉩니다.
- 비예측적 라우팅
- FrugalGPT, AutoMix 등의 캐스케이드 방식은 작은 모델에서 시작해 더 큰 모델로 전환하는 방법을 사용.
- 단점: 여러 모델을 거치므로 비용과 대기 시간이 증가.
- 예측적 라우팅
- HybridLLM, RouterBench 등의 방식은 사전에 응답 품질을 예측하여 최적의 모델을 선택.
- 단점: 기존 모델들은 대기 시간(latency) 요소를 고려하지 않거나 새로운 모델 추가 시 재훈련이 필요.
3. MixLLM 방법론
3.1 동적 LLM 라우팅 개념
스트리밍 방식으로 쿼리가 주어질 때, 각 쿼리에 대해 최적의 LLM을 선택하는 것이 목표입니다.
mn∗=argmaxl(sn,l)
여기서 sn,l은 선택 점수이며, 예측된 품질, 비용, 대기 시간 등을 반영하여 결정됨.
3.2 MixLLM 프레임워크 개요
MixLLM은 다음 4가지 주요 모듈로 구성됩니다.
- 태그 기반 임베딩 강화(Query Embedding Enhancement)
- 쿼리의 일반적인 임베딩(예: BERT)에는 잡음이 포함될 가능성이 높음.
- InsTag 모델을 이용해 쿼리 태그를 생성하고, 이 태그를 기반으로 보다 정제된 임베딩을 생성.
- LLM별 예측 모델(LLM-Specific Prediction Models)
- 각 LLM의 응답 품질 과 비용 을 독립적으로 예측. pn,lp^n,l cn,lc^n,l
- 예측 모델은 새로운 LLM이 추가될 때 전체 재훈련이 필요하지 않도록 설계됨.
- 메타 의사결정기(Meta Decision Maker)
- 예측된 품질과 비용을 반영하여 최적의 모델을 선택하는 메커니즘.
- 선택 점수 계산식: ssn,l=sn,ltrade+α⋅sn,lunc−β⋅slpen
- strade : 품질과 비용 간의 균형을 조정하는 항목.
- sunc : 예측 불확실성을 고려하는 항목.
- spen : 대기 시간이 긴 모델을 선택하지 않도록 패널티를 부여.
- 지속적 학습(Continual Learning)
- 오프라인 학습: 초기 모델 학습 시, 모든 후보 LLM에 대한 응답 품질, 비용 등의 정보를 사용하여 예측 모델을 학습.
- 온라인 학습: 실제 서비스 운영 중에도 새로운 사용자 피드백을 반영하여 지속적으로 모델을 개선.
4. 실험 결과
4.1 실험 환경
- 데이터셋: RouterBench 데이터셋(36,497개 쿼리, 11개 LLM 응답 포함).
- 베이스라인 비교: FrugalGPT, RouteLLM, RouterBench, MetaLLM, OptLLM 등과 비교.
- 평가지표:
- 품질(0~1 스케일)
- 비용(달러 단위)
- 대기 시간(초)
4.2 주요 결과
- MixLLM은 GPT-4의 97.25% 품질을 유지하면서 비용을 24.18%로 줄이는 성과를 보임.
- 비예측적 라우팅 기법(예: AutoMix)은 여러 LLM을 호출하므로 비용이 급격히 증가.
- 예측적 라우팅 기법(예: RouterBench)은 대기 시간을 고려하지 않아 고비용 LLM이 과도하게 선택되는 문제.
4.3 지속적 학습의 효과
- 오프라인 학습만 사용한 경우: 75.54% 품질 달성.
- 온라인 학습(사용자 피드백 반영) 추가 시: 76.45%로 품질 향상.
4.4 태그 기반 임베딩 개선 효과
- 일반 임베딩 대비 태그 기반 임베딩 사용 시 최대 5.72% 품질 향상.
4.5 대기 시간 고려 여부에 따른 비교
- 대기 시간을 고려하지 않은 경우, 일부 모델(예: AutoMix)의 품질이 낮아짐.
- MixLLM은 대기 시간을 고려하여 성능을 유지.
5. 결론 및 한계점
5.1 결론
- MixLLM은 태그 기반 임베딩, LLM별 예측 모델, 메타 의사결정기, 지속적 학습을 활용하여 LLM 라우팅을 최적화.
- 응답 품질을 유지하면서 비용과 대기 시간을 절감하는 효과를 확인.
- 실시간 시스템에서 활용 가능하며, 새로운 모델이 추가될 때도 쉽게 확장 가능.
5.2 한계점
- 정제된 피드백 필요: MixLLM은 정확한 응답 품질 데이터를 필요로 하지만, 현실에서는 이를 구하기 어려울 수 있음.
- 미지의 도메인(Out-of-Domain) 문제: 학습되지 않은 도메인의 쿼리에 대한 일반화 성능을 개선할 필요가 있음.
- 단일 최적 응답 선택 문제: 실제 사용자는 단일 응답을 선호하지만, 여러 LLM을 활용하는 경우 이를 효과적으로 선택하는 방법이 필요.
- 하드웨어 제약 반영 부족: MixLLM은 대기 시간을 고려하지만, 더 세부적인 하드웨어 리소스 최적화 전략이 필요.
- 계층적 라우팅 미적용: 특정 도메인에 대해 먼저 라우팅한 후, 해당 도메인 내에서 최적 LLM을 선택하는 방식도 고려할 수 있음.
- 실제 적용 테스트 부족: 현실 세계에서의 운영 결과를 추가적으로 검증할 필요가 있음.
🔍 요약
MixLLM은 다양한 LLM을 활용하여 최적의 모델을 동적으로 선택하는 라우팅 시스템입니다. 태그 기반 임베딩, 경량 예측 모델, 지속적 학습을 통해 응답 품질을 유지하면서 비용과 대기 시간을 줄이는 것이 특징입니다. 실험을 통해 GPT-4 대비 97.25% 품질을 유지하면서도 비용을 24.18%로 줄이는 성능을 입증했으며, 지속적 학습과 대기 시간 최적화를 통해 실제 서비스에서의 활용 가능성을 높였습니다.