https://arxiv.org/pdf/2405.16587
로컬-클라우드 아키텍처(Local-Cloud Architecture):
다양한 보상 모델(Versatile Reward Models):
온라인 학습 프로토콜(Online Learning Protocol):
이산화 라운딩 기법(Discretization Rounding):
후회(regret)와 제약 위반(constraint violation)에 대한 분석:
- 후회는 최적의 행동을 선택하지 못해 발생하는 성능 손실을 의미하며, 제약 위반은 예산 제약을 초과하는 상황을 가리킵니다.
- C2MAB-V는 비용을 초과하지 않도록 하면서, 최적의 성능을 달성하도록 설계되었습니다. 논문에서는 후회와 위반에 대한 이론적 경계값을 제시하여, C2MAB-V의 성능을 보장합니다.
실험 설정:
성능 메트릭:
결과 해석:
- 실험 결과, C2MAB-V는 다른 기존 방법들에 비해 빠른 수렴성과 높은 보상/위반 비율을 보여줍니다. 특히 e-Greedy 대비 약 64.72% 개선된 성능을 보이며, 기존의 단일 LLM 사용 방식보다도 효율적인 성능을 입증하였습니다.
- 이는 C2MAB-V의 조합적 선택과 실시간 피드백을 활용한 온라인 학습이 다양한 작업 환경에서 효과적으로 작동함을 시사합니다.
논문에서는 C2MAB-V가 다양한 작업 유형에서 다중 LLM을 선택할 때 비용 효율성과 성능을 모두 최적화할 수 있음을 보여주었습니다. 이 모델은 예산 제약을 준수하면서도 각 LLM의 강점을 조합하여 다양한 작업에 대응할 수 있습니다. 향후 연구에서는 C2MAB-V의 구조를 더욱 개선하여, 다중 로컬 서버와의 통신을 통한 성능 향상 및 모델 선택 전략을 더 고도화하는 방향으로 나아갈 수 있습니다.
이 논문의 방법론은 비용 효율성을 중시하는 기업이나 공공 기관이 다양한 작업에 맞춤형 LLM을 선택하여 예산 내에서 최적의 성능을 유지하는 데 실질적인 도움을 줄 수 있는 혁신적인 접근 방식입니다.
이상으로 논문의 핵심 내용과 방법론을 상세히 요약해 보았습니다. 추가적으로 궁금한 사항이나 특정 부분에 대한 더 깊은 설명이 필요하시면 알려 주세요.
Xiangxiang Dai^1, Jin Li^2, Xutong Liu^3, Anqi Yu^4, John C.S. Lui^1
대형 언어 모델(LLM)의 급속한 발전과 더불어 다양한 다중 LLM 작업에서 각 모델의 가격 구조가 증가함에 따라 LLM 선택 시 비용이 크게 차이날 수 있습니다. 이러한 문제를 해결하기 위해 C2MAB-V라는 비용 효율적인 조합 멀티-암드 밴디트(MAB)를 소개합니다. 이는 최적의 LLM 선택과 활용을 위한 다목적 보상 모델입니다. 기존의 정적 선택 접근 방식이나 비용을 고려하지 않은 단일 LLM을 사용하는 방법과 달리, C2MAB-V는 여러 LLM을 선택할 수 있는 조합적 검색 공간을 제공하여 다양한 협업 과제에 적합한 보상 모델을 적용할 수 있습니다.
우리의 온라인 피드백 메커니즘과 신뢰 구간 기법을 기반으로 한 C2MAB-V는 탐색과 활용 사이의 균형을 조정하며 다양한 모델 간의 상호작용을 효율적으로 관리하면서도 각 작업의 보상과 비용을 조절하는 데 중점을 둡니다. NP-난해한 정수 선형 프로그램 문제는 다음과 같은 방식으로 해결됩니다: (i) 정수 문제를 로컬 서버에서 해결 가능한 릴렉스 형태로 분해, (ii) 최적의 LLM 조합을 제공하는 이산화 라운딩 기법 적용, (iii) 피드백을 통한 지속적인 온라인 업데이트. 이론적으로, C2MAB-V는 다목적 보상 모델을 통해 일부 퇴화 사례에서도 엄격한 보장과 최첨단 결과를 제공합니다. 실증적으로, 9개의 LLM을 3가지 응용 시나리오에 적용한 결과, C2MAB-V는 성능과 비용 효율성 측면에서 균형 잡힌 결과를 보였습니다.
오늘날 디지털 시대에서 ChatGPT와 같은 대형 언어 모델(LLM)은 컴퓨터 언어학 및 인지 처리에서 혁신을 선도합니다. 고성능 LLM의 출현은 모델 선택의 문제에서 중요한 관심을 끌고 있습니다. 일반적으로 LLM 선택 방법은 최적의 성능 모델을 선택하는 정적 방식에 의존하는데, 예를 들어 최소의 퍼플렉서티를 가진 모델을 선택하는 방식이 있습니다. 그러나 다양한 LLM의 능력은 특정 과제에 맞는 접근법을 통해 이점을 제공할 수 있습니다. 각 LLM은 고유한 강점과 약점을 지니고 있으며, 예를 들어 Investm은 금융 부문에 특화되어 있어 특정 과제에 적합할 수 있습니다. 정적 선택 방법의 한계가 더욱 두드러짐에 따라 다양한 요인으로 인해 이러한 방식을 보완할 필요성이 높아졌습니다.
"생성 다양성(generation diversity)"은 특정 상황에서 저비용 LLM이 더 나은 성능을 보일 수 있음을 의미하고, "데이터 변동(data drift)"은 실시간으로 생성된 답변의 특성이 학습 데이터와 다를 수 있다는 점을 가리킵니다. 이러한 문제를 해결하기 위해서는 온라인 방식이 필요합니다. 이는 연속적인 피드백을 통해 각 모델의 성능 변화에 맞춰 결정을 최적화하여 적절한 LLM을 선택하고, 사용자 상호작용을 통해 다양한 응용 요구 사항을 지속적으로 반영하는 방식입니다.
또한, 여러 LLM(또는 에이전트)을 결합하여 작업을 완료하는 경우가 많아졌으며, 이는 단일 LLM을 사용하는 것을 넘어섭니다. 예를 들어, [54]와 같은 플랫폼들은 단일 채팅 세션에서 여러 봇을 통합하는 기능을 선도했습니다. [46]은 동적 상호작용 아키텍처와 지능형 에이전트 팀 최적화를 통해 LLM-에이전트 네트워크를 소개하고 있습니다. [31]은 다중 LLM 간의 협업을 강화하는 메타 프로그래밍 프레임워크를 제안합니다. [26]은 생성 작업을 위한 LLM 계층 구조 구현을 탐구합니다. 그러나 기존 연구들은 다양한 작업의 특성에 맞춘 최적화는 고려하지 않았으며, 이는 작업마다 상이한 보상 형태를 요구할 수 있습니다.
이에 따라, 우리는 다른 작업에 필요한 세 가지 협업 예제를 제공합니다:
사용자 경험 향상을 위해 여러 LLM을 배치하여 만족스러운 결과를 보장하는 방식.
교육용 튜터링에서는 주제에 특화된 LLM이 병렬로 작동하여 특정 LLM의 실패가 다른 모델에 심각한 영향을 미치지 않도록 합니다.
프로젝트 개발에서는 여러 하위 모듈을 관리하여 특정 모듈의 실패가 전체 프로젝트에 영향을 미치지 않도록 합니다.
이 세 가지 예는 작업 구조에 맞는 적절한 LLM을 결합하는 것이 중요하다는 점을 보여줍니다.
더불어, 다양한 성능 수준을 가진 LLM의 출현은 실질적인 사용 비용에 차이를 야기합니다. 예를 들어, ChatGPT를 운영하는 데 하루 약 $700,000의 비용이 소요될 수 있으며, GPT-4를 고객 서비스에 배치하면 중소기업에서 한 달에 $21,000 이상의 비용이 발생할 수 있습니다 [13]. 이는 LLM의 선택과 활용 전략에 비용 고려를 포함해야 한다는 점을 시사합니다.
이와 같은 논의를 바탕으로, 우리는 다양한 작업 유형 간의 통합을 시너지화하기 위해 다목적 보상 모델을 갖춘 비용 효율적인 조합 멀티-암드 밴디트(C2MAB-V)를 제안합니다. C2MAB-V는 높은 성능을 달성하면서 비용 제한을 충족할 수 있도록 LLM 선택의 이중 과제를 관리합니다. 또한, C2MAB-V는 조합적 모델 선택 전략을 활용하여 전통적인 단일 모델의 한계를 확장하여 광범위한 LLM 후보를 포함합니다. 마지막으로, 조합적 LLM 선택의 NP-난해한 복잡성을 해결하기 위해 초기 문제를 연속적인 형태로 변환했습니다. 이 과정은 사용자 쿼리를 처리해야 하는 로컬 서버에서 수행되며, 이산화 기법을 통해 성능을 보장하는 포스트 릴랙세이션 평가가 진행됩니다.
결론적으로, 우리의 기여는 다음과 같습니다.
우리는 온라인 C2MAB-V 프레임워크에 대한 철저한 이론적 분석을 수행했으며, 세 가지 서로 다른 보상 모델을 다루었습니다. 이 분석은 보상과 위반 사이의 균형뿐만 아니라 탐색과 활용 간의 균형을 다루고 있습니다. 우리는 다양한 보상 모델 간의 공통 속성을 식별하고 마팅게일 구성 기법을 사용하여 다양한 협업 작업에서 모델의 확률적 속성을 분석했습니다. 특히, 후회와 위반 분석 결과는 일부 퇴화 사례에서 최첨단 결과와 일치함을 보여줍니다.
우리의 C2MAB-V 프레임워크는 9개의 개별 LLM을 포함한 평가에서 우수한 성능 결과를 보여주며 실증적으로 검증되었습니다. 이 테스트들은 C2MAB-V가 적응적으로 균형 조정 문제를 해결하여 보상을 증가시키거나 비용을 줄일 수 있음을 일관되게 확인했습니다. 또한, 탐색 실험을 통해 얻은 상세한 분석은 다중 LLM 접근 방식의 전략적 설계와 활용에 대한 더 깊은 통찰을 제공합니다.
조합 멀티-암드 밴디트(Multi-Armed Bandit, MAB): 멀티-암드 밴디트 문제의 온라인 학습 문제는 오랜 연구 역사를 가지고 있습니다. MAB 모델은 [56]의 주요 연구로 처음 소개되었고, 이후 여러 연구자들에 의해 확장되었습니다([42, 62, 44]). 전통적인 MAB 모델은 시도마다 하나의 팔을 선택하는 데 초점을 맞추지만, 더 복잡한 조합 MAB(CMAB)는 여러 팔을 동시에 선택하는 시나리오를 다룹니다. 최근 CMAB는 [14, 37, 67, 48, 49]에 의해 많은 관심을 받았습니다. 초기 연구는 [23]이 주도하였고, 이후 [38, 16]에서 후회 경계가 개선되었습니다. 이후 [14, 67]은 확률적 피드백을 통해 피드백 모델을 확장하는 연구를 수행했습니다. 최근에는 [43]이 CUCB의 맥락 정보를 통합하는 분산 적응 알고리즘 BCUCB-T를 제안했습니다. 우리의 연구는 CMAB 설정을 기반으로 하지만 더 복잡한 균형 문제를 해결하기 위해 다양한 협력 작업 유형을 다루며, 세 가지 다른 조합 보상 모델을 탐구합니다.
다중 LLM 결합: 성능 향상을 위해 여러 LLM 모델을 결합하는 방법은 상당한 관심을 받고 있으며, 이를 통해 결과물의 품질을 높이려는 노력이 이루어지고 있습니다 [35]. 예를 들어, 지식 증류(knowledge distillation) 기술은 더 크고 복잡한 모델의 압축 모델 훈련을 통해 자원 활용을 최적화합니다 [28, 58]. 한편, 앙상블 학습(ensemble learning)은 독립적으로 훈련된 모델의 예측을 결합하여 성능을 향상시키는 방식입니다 [30, 32]. 그러나 상용 LLM의 경우 "교사" 모델의 내부를 공개하지 않으려는 관행이 있어 "학생" 모델의 복제 효율성이 낮아지는 문제가 발생합니다 [52]. 앙상블 학습은 다양한 모델을 결합해야 하므로 재정적 부담이 증가하고, 개방형 모델의 부재로 인한 절차적 부담이 따릅니다 [47, 18, 13].
우리는 비용 효율적인 조합 LLM 온라인 선택 전략의 근거를 소개합니다.
단일 및 정적 모델 정책의 한계: 표 1은 다양한 LLM의 상업적 비용을 나타냅니다 [13]. 경제적으로, GPT-4와 같은 가장 비싼 옵션을 모든 응용에 대해 지속적으로 선택하는 것은 현실적이지 않을 수 있습니다. 따라서 보상(“reward”)이라고 하는 비용과 성능 간의 균형을 신중하게 평가하는 것이 필수적입니다.
표 1: 10백만 출력 토큰을 기준으로 한 다양한 LLM의 비용 비교.
| LLM | 비용($) |
|---|---|
| ChatGPT | 2 |
| GPT-3 | 20 |
| GPT-4 | 60 |
| ForeFrontAI | 5.8 |
| J1-Large | 30 |
| J1-Jumbo | 250 |
| Xlarge | 10 |
| GPT-Neox | 35 |
| GPT-J | 5 |
| GPT-Curie | 2 |
| FAIRSEQ | 15 |
| J1-Grande | 80 |

그림 1: 다양한 문제 샘플에 대한 LLM의 정확도 비교

그림 2: 계층적 형태의 조합적 LLM 예제
또한, 우리는 GPT-4, GPT-3.5, Claude 1.2, Claude 2, Forefront [52, 21, 15]을 포함한 여러 LLM의 성능을 수학 데이터셋 [60]과 SciQ 데이터셋 [69]을 사용하여 평가했습니다. 이 데이터셋은 물리학, 화학, 생물학을 포함한 여러 주제를 다룹니다. 그림 1에서 보는 바와 같이, 세 가지 임의로 선택된 문제 세트(각각 200개의 샘플 포함)를 비교한 결과는 단일 LLM에 의존하는 것의 근본적인 한계를 보여줍니다. 이러한 측정은 다양한 상황에서 GPT-4와 같은 고급 모델의 한계를 강조하며, 섹션 1에서 언급한 "생성 다양성"과 특정 쿼리에 맞는 "적절한" LLM을 선택하기 위한 지속적인 온라인 학습의 필요성을 보여줍니다.
조합적 LLM의 이점: 다양한 작업 중에서 우리는 사용자 경험을 보장하면서 비용을 최소화하는 다중 LLM 협업 작업을 예로 선택했습니다. 그림 2에 나타난 바와 같이, ForeFrontAI가 첫 번째 옵션입니다. 그 응답의 정확도가 데이터셋 [69]에서 올바른 선택 질문의 정확도와 일치하면 쿼리는 GPT-3.5로 라우팅됩니다. 추가적인 세부 조정이 필요할 경우 GPT-4가 호출됩니다. 계층적 형태의 다중 LLM 조합과 GPT-4 단독 사용을 비교한 비용 평가에서는, 다중 LLM 조합이 GPT-4에만 의존하는 것보다 비용을 60.1% 줄일 수 있음을 보여주었습니다. 정확도 평가에서는 조합적 접근 방식이 데이터셋에서 0.824의 정확도를 달성하여 GPT-4 단독 사용으로 얻은 0.732를 초과했습니다. 따라서 조합적 LLM을 사용하는 전략은 유망하고 설득력 있는 대안을 제공합니다.
본 섹션에서는 다목적 보상 모델을 갖춘 비용 효율적인 조합 멀티-암드 밴디트(C2MAB-V) 온라인 프레임워크를 소개합니다. 주요 기호의 요약은 부록 A에 제공됩니다.
로컬-클라우드 아키텍처: 많은 수의 매개변수와 LLM의 방대한 저장소 오버헤드를 고려할 때, 다수의 LLM을 배치하는 전형적인 접근법은 로컬 서버에서 요청을 처리하고 클라우드와의 통신을 통해 작업을 시작하는 것입니다. 클라우드는 다수의 로컬 서버를 서비스하며, 효율적인 요청 처리를 위해 각 로컬 서버와 클라우드의 관계를 중점적으로 설명합니다.
조합적 LLM 인스턴스: 스케줄링 클라우드는 여러 독립적인 LLM을 조직하여 로컬 서버의 요청을 효과적으로 처리합니다. LLM 집합을 로 나타내며, 각 인덱스 k는 특정 LLM을 나타냅니다. 시스템은 시간 슬롯을 기준으로 동작하며, 클라우드는 각 라운드에서 이용 가능한 LLM 중 하위 집합 St를 선택합니다.
선택된 LLM 집합을 S 라 하고, 가능한 모든 행동 조합의 집합으로 나타냅니다. 예를 들어, 높은 수요 작업이 발생하면 GPT-4가 사용 한도에 도달하여 일시적으로 선택에서 제외될 수 있습니다. 는 동시에 활성화될 수 있는 LLM의 최대 수를 나타냅니다.
온라인 학습 프로토콜: 조합적 LLM 인스턴스는 로컬 서버, 스케줄링 클라우드, 사용자 쿼리 간의 순차적 상호작용을 포함하는 로컬-클라우드 아키텍처입니다. 로컬 서버는 사용자 활동과 피드백을 분석하여 LLM의 성능 평가를 로컬에서 업데이트하고, 이를 스케줄링 클라우드로 전달합니다. 그 후 스케줄링 클라우드는 새로운 정보를 바탕으로 LLM의 선택과 조정을 수행합니다. 이러한 성능 평가는 보상으로 간주되며 ROUGE-2 점수와 같은 자동 요약 작업에서의 성능을 기준으로 평가됩니다.
다목적 보상 모델: ) 는 각 LLM의 결과에 대한 "초기 미지의" 평균 벡터를 나타냅니다. 우리는 다중 LLM 작업에서 다양한 보상 모델을 고려합니다.
부분 LLM 피드백: LLM을 선택하여 쿼리할 때 모든 LLM이 아닌 일부 LLM에서만 피드백을 받을 수 있습니다. 로컬 서버는 선택된 LLM 집합의 일부로부터 피드백을 관찰합니다.
통계 기반 비용 모델: 우리는 각 쿼리에 대해 LLM이 사용한 출력 토큰 수를 기반으로 비용을 계산하는 통계 기반 비용 모델을 제안합니다. 목표는 예상 비용 를 추정하는 것입니다.
라운드 t 에서 스케줄링 클라우드가 선택한 LLM 부분 집합 Ft 의 실행 총 비용은 \sum{k \in Ft} y{t,k} 로 주어집니다. 또한, LLM 조합 설정에서 사전 정의된 예산 보증 임계값 \rho > 0 가 존재하며, 장기적으로 선택된 작업의 누적 비용이 이 임계값 \rho 이하로 유지되어야 합니다. 이를 통해 조직(기업 및 정부 기관 포함)이 LLM 사용을 효율적으로 관리하고 예산 제한을 준수할 수 있습니다. 이 예산 제한 준수 여부를 평가하기 위해 위반 지수(Constraint Violation)를 다음과 같이 정의합니다.
여기서 입니다.
온라인 학습 과정에서 이 비용 제한을 일시적으로 초과하는 것은 가능하지만, 중요한 초과는 허용되지 않으며, 따라서 위반 메트릭이 필요합니다. 특정 감소 속도 로 감소하는 위반 비율은 효과적인 제한 준수를 보장하며, 이는 가 에 따라 감소함을 의미합니다.
온라인 학습 알고리즘 A 의 성능은 예상 누적 보상과 최적의 행동 간의 차이로 정의되는 "후회"로 평가됩니다. 정확한 를 결정하는 것은 NP-난해 문제가 될 수 있으므로, 우리는 \alpha-근사 기법을 사용합니다. 이 기법은 주어진 평균 벡터 \mu 에 대해 보상 를 보장하는 행동 S 를 출력합니다. -근사 후회는 다음과 같이 정의됩니다.
우리는 그림 3과 같이 온라인 C2MAB-V 프레임워크 설계를 제시합니다. 본 방법은 사용된 LLM과 관련된 미지의 보상과 비용을 추정하는 과제를 해결합니다. 로컬 서버의 제한된 리소스를 활용하여 이 릴랙스된 최적화 문제를 해결하며, 스케줄링 클라우드에 대한 계산 부하를 줄입니다.

그림 3: C2MAB-V 작업 흐름 설계
보상과 비용에 대한 신뢰 구간: 최적의 LLM을 선택할 때 더 나은 대안을 간과하는 위험을 줄이기 위해 신뢰 구간(CB) 접근을 사용합니다. 신뢰 반경 를 정의합니다.
입력: 모든 LLM 집합 , 비용 제약 , 확률 매개변수 .
이 알고리즘의 각 단계는 특정 전략을 기반으로 하여 보상과 비용을 평가하고 최적의 LLM을 선택하도록 설계되었습니다.
보상 추정의 탐색 잠재력은 라운드 에서 LLM 의 신뢰 반경으로 정의됩니다.
여기서 는 (0, 1] 범위 내의 확률 매개변수입니다. 는 LLM 가 라운드 동안 선택된 횟수를 나타냅니다. 이 신뢰 반경은 각 LLM의 성능을 평가하는 데 있어서 중요한 매개변수로, LLM의 불확실성을 고려하여 비용 제약을 준수합니다.
모든 라운드 t와 LLM k에 대해, 사건 을 로 정의하고, 사건 를 로 정의합니다. 그렇다면, 사건 와 가 발생할 확률은 적어도 , 즉 입니다.
레마 1은 보상과 비용의 실험적 추정치가 LLM의 실제 평균 값과 높은 확률로 일치함을 보여줍니다.
LLM 선택 문제의 계산적 어려움을 완화하기 위해 로컬 서버는 완화된 전략을 채택하여 연속 공간에서 문제를 해결합니다. 로컬 서버는 사용자의 민감한 정보를 스케줄링 클라우드에 전송하지 않도록 보장하면서 최적의 LLM 선택을 수행합니다.
지표 변수 는 에 속한 LLM의 선택 상태를 나타내며, 이면 LLM 가 선택된 것을 의미하고, 이면 선택되지 않은 것을 의미합니다. 각 는 연속 변수 로 간주되어, 최적화 문제를 쉽게 해결할 수 있도록 합니다.
탐욕 알고리즘은 제약 조건 내에서 를 최적화할 수 있는 적합한 값을 효율적으로 선택합니다.
이와 같은 선형 프로그래밍 문제는 다항 시간 내에 쉽게 해결할 수 있습니다.
보상 함수 는 결합적 보상 함수로서, 가능한 행동 집합을 로 정의합니다. 우리는 완화된 보상 함수를 로 설정하여 다음의 최적화 문제를 해결합니다:
위의 최적 해는 로그-선형 프로그래밍 문제를 해결하는 것과 같으며, 이를 통해 최적화 문제를 더 쉽게 해결할 수 있습니다.
기존의 완화 방법과 달리, 우리 전략은 로컬 서버가 다중 피드백을 활용하여 보상과 비용 예측을 동적으로 조정하도록 합니다. 구체적으로, 선택된 LLM에서 얻은 부분적 조합 피드백 모델이 사용됩니다.
로컬 서버는 선택된 LLM의 보상과 비용 추정치를 다음과 같이 업데이트합니다.
여기서 는 LLM 가 제공한 보상이고, 는 비용입니다.
LLM 선택을 위한 이산화 라운딩: 우리 아키텍처에서, 스케줄링 클라우드는 로컬 서버와 통신하며, 로컬 서버는 연속 데이터를 스케줄링 클라우드로 전송하여 최적의 LLM 집합을 선택합니다. 이산화 라운딩을 통해 를 이산화하여 가능한 LLM 집합 를 선택합니다.
이 이산화 라운딩은 LLM 조합 선택의 복잡성을 줄이고, Appendix E.3에 있는 효율성 비교 결과에서도 확인할 수 있습니다.
본 섹션에서는 C2MAB-V의 이론적 성능(후회와 위반)을 종합적으로 분석합니다. 페이지 제한으로 인해 상세한 증명은 부록 D에 포함하였습니다.
분석을 위해 몇 가지 정의를 소개합니다.
신뢰 반경에서 \delta = 1/T일 때, 다중 LLM 선택 문제에 대한 \alpha-근사 후회는 다음과 같이 경계 지어지며, 확률이 적어도 1 - 1/T 이상일 때 성립합니다:
C2MAB-V 프레임워크는 장기적인 비용 고려 사항을 포함하여 기존의 CMAB 모델을 확장합니다. [38]의 선형 CMAB 모델과 비교했을 때, 이 후회 경계는 매개변수 불확실성 관리가 효율적으로 이루어짐을 보여줍니다. 우리의 접근법은 완화된 NP-난해 문제에서 이산화 라운딩을 도입하여 차별화됩니다.
신뢰 반경에서 일 때, 최악의 경우 제약 위반은 다음과 같이 경계 지어지며, 확률이 적어도 1 - 1/T 이상일 때 성립합니다:
우리의 분석 결과에 따르면, 위반률은 의 속도로 감소하며, 이는 장기적으로 위반이 제거될 가능성을 시사합니다.
실험 설정: SciQ 데이터셋 [69]을 사용하여 세 가지 다중 LLM 보상 모델(AWC, SUC, AIC)을 9개의 LLM에서 평가했습니다. 비용은 공식 가격을 기반으로 계산되며, 실험은 10개의 시드에서 평균되었습니다. 자세한 설정은 Appendix E.1을 참조하십시오.
비교 기준: 비교는 GPT-4, ChatGLM2, CUCB, Thompson Sampling, e-Greedy 등과 함께 수행되었습니다.

그림 4: 9개의 다른 LLM에 대해 세 가지 작업 유형의 보상/위반 비율 비교
(a) AWC (b) SUC (c) AIC
고정 비용 또는 선형 보상에서의 C2MAB-V의 견고성: C2MAB-V의 강인성은 매개변수의 다양한 값 (0.3, 0.05), (1, 0.05), (0.3, 0.01), (1, 0.01)로 검증됩니다. 사전 학습된 다중 LLM의 고정 조합을 사용하여 온라인 쿼리에 적용하여 피드백 기반 온라인 학습이 오프라인 영역의 LLM 선택을 조정하는 데 어떻게 도움이 되는지 탐색합니다.
보상과 비용 간의 균형을 위해, 우리는 보상/위반 비율로 성능을 평가합니다. 이는 라운드당 평균 보상을 라운드당 평균 위반으로 나눈 값이며, 높은 비율은 우수한 성능을 나타냅니다.
보상/위반 비율 성능 결과는 그림 4에 나타나 있습니다. AWC 모델에서 C2MAB-V는 모든 매개변수 설정에서 다른 알고리즘보다 일관되게 우수한 성능을 보이며, 이는 C2MAB-V의 보상과 위반 간의 균형을 유지하는 능력을 강조합니다. 알고리즘은 1,000라운드 이내에 수렴하여 ()-greedy 알고리즘보다 빠르게 학습합니다.
C2MAB-V는 e-Greedy 대비 64.72% 개선, Thompson Sampling 대비 3.9배, CUCB 대비 4배, GPT-4 단일 사용 대비 6배의 성능을 보입니다.
본 논문에서는 비용 효율적인 조합 온라인 모델인 C2MAB-V를 제안했습니다. C2MAB-V는 실험을 통해 비용 효율성과 성능을 모두 유지할 수 있는 능력을 입증했습니다.
향후 연구는 로컬-클라우드 아키텍처 내의 LLM 간의 상호작용을 강화하는 데 중점을 둘 수 있습니다.
위 내용에서 추가적인 설명이 필요하시거나 다른 부분에 대해 궁금하신 사항이 있으시면 알려주세요.