Cost-Effective Online Multi-LLM Selection with Versatile Reward Models

하임·2024년 11월 27일

Routing

목록 보기
2/10

https://arxiv.org/pdf/2405.16587


  • 핵심 요약

    논문의 핵심 개요

    이 논문은 다양한 작업과 비용 구조를 고려하여 다중 대형 언어 모델(LLM)을 효율적으로 선택하는 방법을 제안합니다. 특히, 여러 LLM의 성능과 가격이 다를 때 이를 최적의 조합으로 선택하여 비용을 절감하면서 성능을 극대화하려는 목적을 가지고 있습니다. 기존의 방법들이 단일 LLM을 선택하거나, 고정된 조합을 사용하는 방식에 비해, 이 논문은 실시간 피드백과 조정을 활용하여 비용 효율적인 다중 LLM 선택 방안을 제시하는 점이 주요 차별점입니다. 이를 위해 논문에서는 C2MAB-V라는 비용 효율적인 조합 멀티-암드 밴디트 모델을 소개합니다. C2MAB-V는 다양한 보상 모델과 지속적인 피드백 시스템을 활용하여 주어진 예산 내에서 최적의 LLM 조합을 선택하고, 사용자 요청에 따라 유동적으로 LLM을 활용할 수 있도록 설계되었습니다.

    방법론 개요

    C2MAB-V 프레임워크는 크게 다음과 같은 몇 가지 핵심 구성 요소와 알고리즘으로 구성됩니다:
    1. 로컬-클라우드 아키텍처(Local-Cloud Architecture):

      • 이 프레임워크는 로컬 서버와 스케줄링 클라우드 간의 상호작용을 통해 이루어집니다. 로컬 서버는 사용자 쿼리를 수신하고, 피드백 데이터를 수집하여 LLM 성능을 평가합니다.
      • 스케줄링 클라우드는 이 데이터를 바탕으로 최적의 LLM 조합을 선택하여 요청을 처리하고, 비용과 보상을 고려해 동적으로 조정할 수 있습니다.
      • 이렇게 분산된 아키텍처는 사용자 민감 정보를 보호하고, 다양한 작업 환경에서 효율적인 모델 선택을 가능하게 합니다.
    2. 다양한 보상 모델(Versatile Reward Models):

      • C2MAB-V는 특정 작업 유형에 맞춘 여러 보상 모델을 포함합니다. 주요 보상 모델은 다음과 같습니다:
        • Any Win Combination (AWC): 여러 LLM 중 하나라도 정확한 답변을 제공하면 성공으로 간주하는 방식으로, 사용자 경험을 보장하면서도 비용을 절감할 수 있습니다.
        • Sum Up Combination (SUC): 각 LLM이 독립적으로 부분 과제를 수행하고 결과를 더하는 방식으로, 작업 속도를 높이고 각 LLM의 부하를 줄입니다.
        • All In Combination (AIC): 모든 LLM이 동시에 작업을 수행하며, 각 LLM의 실패가 전체 작업 실패로 이어지지 않도록 보장합니다.
    3. 온라인 학습 프로토콜(Online Learning Protocol):

      • C2MAB-V는 사용자의 실시간 피드백을 통해 성능을 지속적으로 평가하며 학습합니다. 로컬 서버는 사용자의 상호작용을 분석하여 각 LLM의 성능을 평가하고, 스케줄링 클라우드로 전달합니다.
      • 이러한 온라인 학습 프로토콜을 통해, 모델은 동적으로 탐색(exploration)과 활용(exploitation)을 균형 있게 조정하며 성능을 최적화할 수 있습니다.
    4. 이산화 라운딩 기법(Discretization Rounding):

      • C2MAB-V는 최적의 LLM 조합을 연속 공간에서 계산하는 대신, 이산화 라운딩을 통해 최적화를 수행합니다. 이는 계산 효율성을 높이고, 다양한 조합 가능성을 탐색하는 데 있어 유연성을 제공합니다.
      • 이 기법은 비용 제약이 있는 상황에서 LLM 조합 선택의 복잡성을 줄여주는 역할을 합니다.
    5. 후회(regret)와 제약 위반(constraint violation)에 대한 분석:
      - 후회는 최적의 행동을 선택하지 못해 발생하는 성능 손실을 의미하며, 제약 위반은 예산 제약을 초과하는 상황을 가리킵니다.
      - C2MAB-V는 비용을 초과하지 않도록 하면서, 최적의 성능을 달성하도록 설계되었습니다. 논문에서는 후회와 위반에 대한 이론적 경계값을 제시하여, C2MAB-V의 성능을 보장합니다.


      실험 및 평가

    6. 실험 설정:

      • C2MAB-V는 SciQ 데이터셋을 사용하여 여러 작업 유형(AWC, SUC, AIC)에서 9개의 LLM(GPT-4, GPT-3.5, ChatGLM2, Claude 등)을 대상으로 성능을 평가합니다.
      • 실험은 10개의 시드를 사용해 반복하며 평균 결과를 도출했습니다. 이는 다양한 예산과 비용 구조를 고려하여 실험이 수행되었음을 의미합니다.
    7. 성능 메트릭:

      • 성능 메트릭으로 보상/위반 비율을 사용합니다. 이 비율은 라운드당 평균 보상을 라운드당 평균 위반으로 나눈 값으로, 높은 비율은 효율적인 모델 선택을 의미합니다.
      • C2MAB-V는 e-Greedy, Thompson Sampling, CUCB, 단일 LLM 사용 방식 등과 비교되었으며, 모든 작업 유형에서 높은 보상/위반 비율을 달성하여 우수한 성능을 보여주었습니다.
    8. 결과 해석:
      - 실험 결과, C2MAB-V는 다른 기존 방법들에 비해 빠른 수렴성과 높은 보상/위반 비율을 보여줍니다. 특히 e-Greedy 대비 약 64.72% 개선된 성능을 보이며, 기존의 단일 LLM 사용 방식보다도 효율적인 성능을 입증하였습니다.
      - 이는 C2MAB-V의 조합적 선택과 실시간 피드백을 활용한 온라인 학습이 다양한 작업 환경에서 효과적으로 작동함을 시사합니다.


      결론 및 향후 연구 방향

      논문에서는 C2MAB-V가 다양한 작업 유형에서 다중 LLM을 선택할 때 비용 효율성과 성능을 모두 최적화할 수 있음을 보여주었습니다. 이 모델은 예산 제약을 준수하면서도 각 LLM의 강점을 조합하여 다양한 작업에 대응할 수 있습니다. 향후 연구에서는 C2MAB-V의 구조를 더욱 개선하여, 다중 로컬 서버와의 통신을 통한 성능 향상 및 모델 선택 전략을 더 고도화하는 방향으로 나아갈 수 있습니다.

      이 논문의 방법론은 비용 효율성을 중시하는 기업이나 공공 기관이 다양한 작업에 맞춤형 LLM을 선택하여 예산 내에서 최적의 성능을 유지하는 데 실질적인 도움을 줄 수 있는 혁신적인 접근 방식입니다.


      이상으로 논문의 핵심 내용과 방법론을 상세히 요약해 보았습니다. 추가적으로 궁금한 사항이나 특정 부분에 대한 더 깊은 설명이 필요하시면 알려 주세요.

비용 효율적인 온라인 다중 LLM 선택을 위한 다목적 보상 모델

Xiangxiang Dai^1, Jin Li^2, Xutong Liu^3, Anqi Yu^4, John C.S. Lui^1

  1. 홍콩 중문대학교
  2. 동남대학교
  3. 카네기 멜런 대학교
  4. 화웨이 기술 유한회사

요약

대형 언어 모델(LLM)의 급속한 발전과 더불어 다양한 다중 LLM 작업에서 각 모델의 가격 구조가 증가함에 따라 LLM 선택 시 비용이 크게 차이날 수 있습니다. 이러한 문제를 해결하기 위해 C2MAB-V라는 비용 효율적인 조합 멀티-암드 밴디트(MAB)를 소개합니다. 이는 최적의 LLM 선택과 활용을 위한 다목적 보상 모델입니다. 기존의 정적 선택 접근 방식이나 비용을 고려하지 않은 단일 LLM을 사용하는 방법과 달리, C2MAB-V는 여러 LLM을 선택할 수 있는 조합적 검색 공간을 제공하여 다양한 협업 과제에 적합한 보상 모델을 적용할 수 있습니다.

우리의 온라인 피드백 메커니즘과 신뢰 구간 기법을 기반으로 한 C2MAB-V는 탐색과 활용 사이의 균형을 조정하며 다양한 모델 간의 상호작용을 효율적으로 관리하면서도 각 작업의 보상과 비용을 조절하는 데 중점을 둡니다. NP-난해한 정수 선형 프로그램 문제는 다음과 같은 방식으로 해결됩니다: (i) 정수 문제를 로컬 서버에서 해결 가능한 릴렉스 형태로 분해, (ii) 최적의 LLM 조합을 제공하는 이산화 라운딩 기법 적용, (iii) 피드백을 통한 지속적인 온라인 업데이트. 이론적으로, C2MAB-V는 다목적 보상 모델을 통해 일부 퇴화 사례에서도 엄격한 보장과 최첨단 결과를 제공합니다. 실증적으로, 9개의 LLM을 3가지 응용 시나리오에 적용한 결과, C2MAB-V는 성능과 비용 효율성 측면에서 균형 잡힌 결과를 보였습니다.


1. 서론

오늘날 디지털 시대에서 ChatGPT와 같은 대형 언어 모델(LLM)은 컴퓨터 언어학 및 인지 처리에서 혁신을 선도합니다. 고성능 LLM의 출현은 모델 선택의 문제에서 중요한 관심을 끌고 있습니다. 일반적으로 LLM 선택 방법은 최적의 성능 모델을 선택하는 정적 방식에 의존하는데, 예를 들어 최소의 퍼플렉서티를 가진 모델을 선택하는 방식이 있습니다. 그러나 다양한 LLM의 능력은 특정 과제에 맞는 접근법을 통해 이점을 제공할 수 있습니다. 각 LLM은 고유한 강점과 약점을 지니고 있으며, 예를 들어 Investm은 금융 부문에 특화되어 있어 특정 과제에 적합할 수 있습니다. 정적 선택 방법의 한계가 더욱 두드러짐에 따라 다양한 요인으로 인해 이러한 방식을 보완할 필요성이 높아졌습니다.


"생성 다양성(generation diversity)"은 특정 상황에서 저비용 LLM이 더 나은 성능을 보일 수 있음을 의미하고, "데이터 변동(data drift)"은 실시간으로 생성된 답변의 특성이 학습 데이터와 다를 수 있다는 점을 가리킵니다. 이러한 문제를 해결하기 위해서는 온라인 방식이 필요합니다. 이는 연속적인 피드백을 통해 각 모델의 성능 변화에 맞춰 결정을 최적화하여 적절한 LLM을 선택하고, 사용자 상호작용을 통해 다양한 응용 요구 사항을 지속적으로 반영하는 방식입니다.

또한, 여러 LLM(또는 에이전트)을 결합하여 작업을 완료하는 경우가 많아졌으며, 이는 단일 LLM을 사용하는 것을 넘어섭니다. 예를 들어, [54]와 같은 플랫폼들은 단일 채팅 세션에서 여러 봇을 통합하는 기능을 선도했습니다. [46]은 동적 상호작용 아키텍처와 지능형 에이전트 팀 최적화를 통해 LLM-에이전트 네트워크를 소개하고 있습니다. [31]은 다중 LLM 간의 협업을 강화하는 메타 프로그래밍 프레임워크를 제안합니다. [26]은 생성 작업을 위한 LLM 계층 구조 구현을 탐구합니다. 그러나 기존 연구들은 다양한 작업의 특성에 맞춘 최적화는 고려하지 않았으며, 이는 작업마다 상이한 보상 형태를 요구할 수 있습니다.

이에 따라, 우리는 다른 작업에 필요한 세 가지 협업 예제를 제공합니다:

  1. 사용자 경험 향상을 위해 여러 LLM을 배치하여 만족스러운 결과를 보장하는 방식.

  2. 교육용 튜터링에서는 주제에 특화된 LLM이 병렬로 작동하여 특정 LLM의 실패가 다른 모델에 심각한 영향을 미치지 않도록 합니다.

  3. 프로젝트 개발에서는 여러 하위 모듈을 관리하여 특정 모듈의 실패가 전체 프로젝트에 영향을 미치지 않도록 합니다.

이 세 가지 예는 작업 구조에 맞는 적절한 LLM을 결합하는 것이 중요하다는 점을 보여줍니다.

더불어, 다양한 성능 수준을 가진 LLM의 출현은 실질적인 사용 비용에 차이를 야기합니다. 예를 들어, ChatGPT를 운영하는 데 하루 약 $700,000의 비용이 소요될 수 있으며, GPT-4를 고객 서비스에 배치하면 중소기업에서 한 달에 $21,000 이상의 비용이 발생할 수 있습니다 [13]. 이는 LLM의 선택과 활용 전략에 비용 고려를 포함해야 한다는 점을 시사합니다.

이와 같은 논의를 바탕으로, 우리는 다양한 작업 유형 간의 통합을 시너지화하기 위해 다목적 보상 모델을 갖춘 비용 효율적인 조합 멀티-암드 밴디트(C2MAB-V)를 제안합니다. C2MAB-V는 높은 성능을 달성하면서 비용 제한을 충족할 수 있도록 LLM 선택의 이중 과제를 관리합니다. 또한, C2MAB-V는 조합적 모델 선택 전략을 활용하여 전통적인 단일 모델의 한계를 확장하여 광범위한 LLM 후보를 포함합니다. 마지막으로, 조합적 LLM 선택의 NP-난해한 복잡성을 해결하기 위해 초기 문제를 연속적인 형태로 변환했습니다. 이 과정은 사용자 쿼리를 처리해야 하는 로컬 서버에서 수행되며, 이산화 기법을 통해 성능을 보장하는 포스트 릴랙세이션 평가가 진행됩니다.

결론적으로, 우리의 기여는 다음과 같습니다.

  1. 새로운 다중 LLM 선택 공식: 우리는 다목적 보상 구조를 갖춘 비용 효율적인 다중 LLM 선택의 새로운 공식을 소개합니다. 이 공식은 새로운 모델 탐색과 효과적인 모델 활용 간의 균형을 강조하며, 장기적인 비용 절감과 높은 보상을 달성하는 다양한 다중 LLM 작업에 높은 보장을 제공합니다.
  2. 고유의 온라인 알고리즘 프레임워크: 우리는 다양한 LLM의 협업 작업을 관리하며 생성 다양성과 데이터 변동성을 처리하기 위해 C2MAB-V 프레임워크를 개발했습니다.

심층적인 후회 및 위반 분석

우리는 온라인 C2MAB-V 프레임워크에 대한 철저한 이론적 분석을 수행했으며, 세 가지 서로 다른 보상 모델을 다루었습니다. 이 분석은 보상과 위반 사이의 균형뿐만 아니라 탐색과 활용 간의 균형을 다루고 있습니다. 우리는 다양한 보상 모델 간의 공통 속성을 식별하고 마팅게일 구성 기법을 사용하여 다양한 협업 작업에서 모델의 확률적 속성을 분석했습니다. 특히, 후회와 위반 분석 결과는 일부 퇴화 사례에서 최첨단 결과와 일치함을 보여줍니다.

종합적인 실증 검증

우리의 C2MAB-V 프레임워크는 9개의 개별 LLM을 포함한 평가에서 우수한 성능 결과를 보여주며 실증적으로 검증되었습니다. 이 테스트들은 C2MAB-V가 적응적으로 균형 조정 문제를 해결하여 보상을 증가시키거나 비용을 줄일 수 있음을 일관되게 확인했습니다. 또한, 탐색 실험을 통해 얻은 상세한 분석은 다중 LLM 접근 방식의 전략적 설계와 활용에 대한 더 깊은 통찰을 제공합니다.


2 관련 연구 및 동기

2.1 관련 연구

조합 멀티-암드 밴디트(Multi-Armed Bandit, MAB): 멀티-암드 밴디트 문제의 온라인 학습 문제는 오랜 연구 역사를 가지고 있습니다. MAB 모델은 [56]의 주요 연구로 처음 소개되었고, 이후 여러 연구자들에 의해 확장되었습니다([42, 62, 44]). 전통적인 MAB 모델은 시도마다 하나의 팔을 선택하는 데 초점을 맞추지만, 더 복잡한 조합 MAB(CMAB)는 여러 팔을 동시에 선택하는 시나리오를 다룹니다. 최근 CMAB는 [14, 37, 67, 48, 49]에 의해 많은 관심을 받았습니다. 초기 연구는 [23]이 주도하였고, 이후 [38, 16]에서 후회 경계가 개선되었습니다. 이후 [14, 67]은 확률적 피드백을 통해 피드백 모델을 확장하는 연구를 수행했습니다. 최근에는 [43]이 CUCB의 맥락 정보를 통합하는 분산 적응 알고리즘 BCUCB-T를 제안했습니다. 우리의 연구는 CMAB 설정을 기반으로 하지만 더 복잡한 균형 문제를 해결하기 위해 다양한 협력 작업 유형을 다루며, 세 가지 다른 조합 보상 모델을 탐구합니다.

다중 LLM 결합: 성능 향상을 위해 여러 LLM 모델을 결합하는 방법은 상당한 관심을 받고 있으며, 이를 통해 결과물의 품질을 높이려는 노력이 이루어지고 있습니다 [35]. 예를 들어, 지식 증류(knowledge distillation) 기술은 더 크고 복잡한 모델의 압축 모델 훈련을 통해 자원 활용을 최적화합니다 [28, 58]. 한편, 앙상블 학습(ensemble learning)은 독립적으로 훈련된 모델의 예측을 결합하여 성능을 향상시키는 방식입니다 [30, 32]. 그러나 상용 LLM의 경우 "교사" 모델의 내부를 공개하지 않으려는 관행이 있어 "학생" 모델의 복제 효율성이 낮아지는 문제가 발생합니다 [52]. 앙상블 학습은 다양한 모델을 결합해야 하므로 재정적 부담이 증가하고, 개방형 모델의 부재로 인한 절차적 부담이 따릅니다 [47, 18, 13].

2.2 동기

우리는 비용 효율적인 조합 LLM 온라인 선택 전략의 근거를 소개합니다.

단일 및 정적 모델 정책의 한계: 표 1은 다양한 LLM의 상업적 비용을 나타냅니다 [13]. 경제적으로, GPT-4와 같은 가장 비싼 옵션을 모든 응용에 대해 지속적으로 선택하는 것은 현실적이지 않을 수 있습니다. 따라서 보상(“reward”)이라고 하는 비용과 성능 간의 균형을 신중하게 평가하는 것이 필수적입니다.


표 1: 10백만 출력 토큰을 기준으로 한 다양한 LLM의 비용 비교.

LLM비용($)
ChatGPT2
GPT-320
GPT-460
ForeFrontAI5.8
J1-Large30
J1-Jumbo250
Xlarge10
GPT-Neox35
GPT-J5
GPT-Curie2
FAIRSEQ15
J1-Grande80

그림 1: 다양한 문제 샘플에 대한 LLM의 정확도 비교

그림 2: 계층적 형태의 조합적 LLM 예제

또한, 우리는 GPT-4, GPT-3.5, Claude 1.2, Claude 2, Forefront [52, 21, 15]을 포함한 여러 LLM의 성능을 수학 데이터셋 [60]과 SciQ 데이터셋 [69]을 사용하여 평가했습니다. 이 데이터셋은 물리학, 화학, 생물학을 포함한 여러 주제를 다룹니다. 그림 1에서 보는 바와 같이, 세 가지 임의로 선택된 문제 세트(각각 200개의 샘플 포함)를 비교한 결과는 단일 LLM에 의존하는 것의 근본적인 한계를 보여줍니다. 이러한 측정은 다양한 상황에서 GPT-4와 같은 고급 모델의 한계를 강조하며, 섹션 1에서 언급한 "생성 다양성"과 특정 쿼리에 맞는 "적절한" LLM을 선택하기 위한 지속적인 온라인 학습의 필요성을 보여줍니다.

조합적 LLM의 이점: 다양한 작업 중에서 우리는 사용자 경험을 보장하면서 비용을 최소화하는 다중 LLM 협업 작업을 예로 선택했습니다. 그림 2에 나타난 바와 같이, ForeFrontAI가 첫 번째 옵션입니다. 그 응답의 정확도가 데이터셋 [69]에서 올바른 선택 질문의 정확도와 일치하면 쿼리는 GPT-3.5로 라우팅됩니다. 추가적인 세부 조정이 필요할 경우 GPT-4가 호출됩니다. 계층적 형태의 다중 LLM 조합과 GPT-4 단독 사용을 비교한 비용 평가에서는, 다중 LLM 조합이 GPT-4에만 의존하는 것보다 비용을 60.1% 줄일 수 있음을 보여주었습니다. 정확도 평가에서는 조합적 접근 방식이 데이터셋에서 0.824의 정확도를 달성하여 GPT-4 단독 사용으로 얻은 0.732를 초과했습니다. 따라서 조합적 LLM을 사용하는 전략은 유망하고 설득력 있는 대안을 제공합니다.


3 문제 정의

본 섹션에서는 다목적 보상 모델을 갖춘 비용 효율적인 조합 멀티-암드 밴디트(C2MAB-V) 온라인 프레임워크를 소개합니다. 주요 기호의 요약은 부록 A에 제공됩니다.

로컬-클라우드 아키텍처: 많은 수의 매개변수와 LLM의 방대한 저장소 오버헤드를 고려할 때, 다수의 LLM을 배치하는 전형적인 접근법은 로컬 서버에서 요청을 처리하고 클라우드와의 통신을 통해 작업을 시작하는 것입니다. 클라우드는 다수의 로컬 서버를 서비스하며, 효율적인 요청 처리를 위해 각 로컬 서버와 클라우드의 관계를 중점적으로 설명합니다.

조합적 LLM 인스턴스: 스케줄링 클라우드는 여러 독립적인 LLM을 조직하여 로컬 서버의 요청을 효과적으로 처리합니다. LLM 집합을 K=1,...,KK = {1, ..., K}로 나타내며, 각 인덱스 k는 특정 LLM을 나타냅니다. 시스템은 시간 슬롯을 기준으로 동작하며, 클라우드는 각 라운드에서 이용 가능한 LLM 중 하위 집합 St를 선택합니다.


선택된 LLM 집합을 S 라 하고, 가능한 모든 행동 조합의 집합으로 나타냅니다. 예를 들어, 높은 수요 작업이 발생하면 GPT-4가 사용 한도에 도달하여 일시적으로 선택에서 제외될 수 있습니다. N=maxSSSN = \max_{S \subseteq S} |S| 는 동시에 활성화될 수 있는 LLM의 최대 수를 나타냅니다.

온라인 학습 프로토콜: 조합적 LLM 인스턴스는 로컬 서버, 스케줄링 클라우드, 사용자 쿼리 간의 순차적 상호작용을 포함하는 로컬-클라우드 아키텍처입니다. 로컬 서버는 사용자 활동과 피드백을 분석하여 LLM의 성능 평가를 로컬에서 업데이트하고, 이를 스케줄링 클라우드로 전달합니다. 그 후 스케줄링 클라우드는 새로운 정보를 바탕으로 LLM의 선택과 조정을 수행합니다. 이러한 성능 평가는 보상으로 간주되며 ROUGE-2 점수와 같은 자동 요약 작업에서의 성능을 기준으로 평가됩니다.

다목적 보상 모델: μ=(μ1,...,μK\mu = (\mu_1, ..., \mu_K) 는 각 LLM의 결과에 대한 "초기 미지의" 평균 벡터를 나타냅니다. 우리는 다중 LLM 작업에서 다양한 보상 모델을 고려합니다.

  • Any Win Combination (AWC): r(S;μ)=(1kS(1μk))r(S; \mu) = \left(1 - \prod_{k \in S} (1 - \mu_k)\right) . 이는 하나 이상의 LLM이 성공적인 답변을 제공하면 성공으로 간주하여 사용자 만족도를 극대화합니다.
  • Sum Up Combination (SUC): r(S;μ)=kSμkr(S; \mu) = \sum_{k \in S} \mu_k . 이 설정에서는 각 LLM이 특정 도메인에서 작업을 수행하여 독립적으로 과제를 완료하고 작업 속도를 높이는 것을 목표로 합니다.
  • All In Combination (AIC): r(S;μ)=kSμkr(S; \mu) = \prod_{k \in S} \mu_k . 모든 LLM이 하위 모듈을 동시에 개발하는 작업을 예로 듭니다. 이 보상 모델은 하나의 LLM이라도 실패하면 전체 작업이 실패하는 것을 방지하는 데 중점을 둡니다.

부분 LLM 피드백: LLM을 선택하여 쿼리할 때 모든 LLM이 아닌 일부 LLM에서만 피드백을 받을 수 있습니다. 로컬 서버는 선택된 LLM 집합의 일부로부터 피드백을 관찰합니다.

통계 기반 비용 모델: 우리는 각 쿼리에 대해 LLM이 사용한 출력 토큰 수를 기반으로 비용을 계산하는 통계 기반 비용 모델을 제안합니다. 목표는 예상 비용 ck=E[yt,k]c_k = \mathbb{E}[y_{t,k}] 를 추정하는 것입니다.


예산 위반 고려 사항

라운드 t 에서 스케줄링 클라우드가 선택한 LLM 부분 집합 Ft 의 실행 총 비용은 \sum{k \in Ft} y{t,k} 로 주어집니다. 또한, LLM 조합 설정에서 사전 정의된 예산 보증 임계값 \rho > 0 가 존재하며, 장기적으로 선택된 작업의 누적 비용이 이 임계값 \rho 이하로 유지되어야 합니다. 이를 통해 조직(기업 및 정부 기관 포함)이 LLM 사용을 효율적으로 관리하고 예산 제한을 준수할 수 있습니다. 이 예산 제한 준수 여부를 평가하기 위해 위반 지수(Constraint Violation)를 다음과 같이 정의합니다.

V(T)=[1Tt=1TkFtyt,kρ]+V(T) = \left[ \frac{1}{T} \sum_{t=1}^{T} \sum_{k \in F_t} y_{t,k} - \rho \right]^+

여기서 [x]+=max(x,0)[x]^+ = \max(x, 0) 입니다.

온라인 학습 과정에서 이 비용 제한을 일시적으로 초과하는 것은 가능하지만, 중요한 초과는 허용되지 않으며, 따라서 위반 메트릭이 필요합니다. 특정 감소 속도 O(Tγ)O(T^{-\gamma}) 로 감소하는 위반 비율은 효과적인 제한 준수를 보장하며, 이는 V(T)V(T)TT 에 따라 감소함을 의미합니다.

α\alpha-근사 후회

온라인 학습 알고리즘 A 의 성능은 예상 누적 보상과 최적의 행동 StS_t^* 간의 차이로 정의되는 "후회"로 평가됩니다. 정확한 StS_t^* 를 결정하는 것은 NP-난해 문제가 될 수 있으므로, 우리는 \alpha-근사 기법을 사용합니다. 이 기법은 주어진 평균 벡터 \mu 에 대해 보상 r(S;μ)αr(St;μ)r(S; \mu) \geq \alpha \cdot r(S_t^*; \mu) 를 보장하는 행동 S 를 출력합니다. α\alpha-근사 후회는 다음과 같이 정의됩니다.

R(T)=E[t=1T(αr(St;μ)r(St;μ))]R(T) = \mathbb{E} \left[ \sum_{t=1}^{T} (\alpha \cdot r(S_t^*; \mu) - r(S_t; \mu)) \right]


4 알고리즘 설계

우리는 그림 3과 같이 온라인 C2MAB-V 프레임워크 설계를 제시합니다. 본 방법은 사용된 LLM과 관련된 미지의 보상과 비용을 추정하는 과제를 해결합니다. 로컬 서버의 제한된 리소스를 활용하여 이 릴랙스된 최적화 문제를 해결하며, 스케줄링 클라우드에 대한 계산 부하를 줄입니다.

그림 3: C2MAB-V 작업 흐름 설계


4.1 로컬 서버의 절차

보상과 비용에 대한 신뢰 구간: 최적의 LLM을 선택할 때 더 나은 대안을 간과하는 위험을 줄이기 위해 신뢰 구간(CB) 접근을 사용합니다. 신뢰 반경 ρt,μk\rho_{t,\mu_k} 를 정의합니다.


알고리즘 1: 피드백을 활용한 C2MAB-V의 온라인 업데이트

입력: 모든 LLM 집합 K\mathcal{K}, 비용 제약 ρ\rho, 확률 매개변수 δ(0,1]\delta \in (0, 1].

  1. 초기화: kK\forall k \in \mathcal{K} , μt,k=0\mu_{t,k} = 0, c^t,k=0\hat{c}{t,k} = 0, Tt,μk=0T{t,\mu_k} = 0, Tt,ck=0T_{t,c_k} = 0.
  2. for t=1,2,,Tt = 1, 2, \dots, T do
  3. 보상 예측: kk -번째 LLM의 예측 보상 μt,k\mu_{t,k}를 “낙관적” 전략을 기반으로 μt,k=min{μ^t,k+αρt,μk,1}\mu_{t,k} = \min\{\hat{\mu}{t,k} + \alpha \rho{t,\mu_k}, 1\} 로 계산합니다.
  4. 비용 추정: “비관적” 전략을 기반으로 kk -번째 LLM의 비용 추정치를 c^t,k=max{c^t,kαcρt,ck,0}\hat{c}{t,k} = \max\{\hat{c}{t,k} - \alpha_c \rho_{t,c_k}, 0\}로 계산합니다.
  5. 탐욕 알고리즘 사용: 탐욕 알고리즘을 사용하여 식 (3)의 완화된 최적화 문제를 해결합니다.
  6. LLM 행동 선택: 이산화 라운딩(discretization rounding)을 통해 LLM 행동 StS_t를 결정합니다.
  7. 결과 관찰: 선택된 LLM의 실제 보상과 비용을 관찰하여 각 kFtk \in F_t에 대해 기록합니다.
  8. 업데이트: 식 (6)에 따라 μ^t,k\hat{\mu}{t,k}, c^t,k\hat{c}{t,k}, kK\forall k \in \mathcal{K}를 업데이트합니다.
  9. end for

이 알고리즘의 각 단계는 특정 전략을 기반으로 하여 보상과 비용을 평가하고 최적의 LLM을 선택하도록 설계되었습니다.

신뢰 반경 계산식

보상 추정의 탐색 잠재력은 라운드 tt에서 LLM kk의 신뢰 반경으로 정의됩니다.

ρt,μk=ln(2π2Kt33δ)2Tt,μk\rho_{t,\mu_k} = \sqrt{\frac{\ln \left(\frac{2 \pi^2 K t^3}{3 \delta}\right)}{2 T_{t,\mu_k}}}

여기서 δ\delta는 (0, 1] 범위 내의 확률 매개변수입니다. Tt,μkT_{t,\mu_k}는 LLM kktt 라운드 동안 선택된 횟수를 나타냅니다. 이 신뢰 반경은 각 LLM의 성능을 평가하는 데 있어서 중요한 매개변수로, LLM의 불확실성을 고려하여 비용 제약을 준수합니다.

레마 1

모든 라운드 t와 LLM k에 대해, 사건 NμkN_{\mu_k}μ^t,kμk<ρt,μk|\hat{\mu}{t,k} - \mu_k| < \rho{t,\mu_k}로 정의하고, 사건 NcN_cc^t,kck<ρt,ck|\hat{c}{t,k} - c_k| < \rho{t,c_k}로 정의합니다. 그렇다면, 사건 NμkN_{\mu_k}NcN_c가 발생할 확률은 적어도 1δ/21 - \delta/2, 즉 Pr{Nμk,Nc}1δ/2\Pr\{N_{\mu_k}, N_c\} \geq 1 - \delta/2입니다.

레마 1은 보상과 비용의 실험적 추정치가 LLM의 실제 평균 값과 높은 확률로 일치함을 보여줍니다.

완화된 LLM 선택 전략

LLM 선택 문제의 계산적 어려움을 완화하기 위해 로컬 서버는 완화된 전략을 채택하여 연속 공간에서 문제를 해결합니다. 로컬 서버는 사용자의 민감한 정보를 스케줄링 클라우드에 전송하지 않도록 보장하면서 최적의 LLM 선택을 수행합니다.

지표 변수 IS={z1,z2,,zK}{0,1}KI_S = \{z_1, z_2, \dots, z_K\} \in \{0, 1\}^KK\mathcal{K} 에 속한 LLM의 선택 상태를 나타내며, zk=1z_k = 1이면 LLM kk가 선택된 것을 의미하고, zk=0z_k = 0이면 선택되지 않은 것을 의미합니다. 각 zkz_k는 연속 변수 z~k[0,1]\tilde{z}_k \in [0, 1]로 간주되어, 최적화 문제를 쉽게 해결할 수 있도록 합니다.

완화된 세 가지 보상 모델

  • Any Win Combination (AWC): 보상 함수 r(S;μ)=(1kS(1μk))r(S; \mu) = \left(1 - \prod_{k \in S} (1 - \mu_k)\right) 를 취급하여, 이 다항 함수의 멀티-선형 확장 형태를 적용합니다. 이는 다음과 같은 완화된 최적화 문제로 이어집니다.

max(1kK(1μkz~k)),kKz~kN,kKct,kz~kρ,0z~k1,kK.\max \left( 1 - \prod_{k \in \mathcal{K}} (1 - \mu_k \tilde{z}k) \right), \quad \sum{k \in \mathcal{K}} \tilde{z}k \leq N, \quad \sum{k \in \mathcal{K}} c_{t,k} \tilde{z}_k \leq \rho, \quad 0 \leq \tilde{z}_k \leq 1, \forall k \in \mathcal{K}.

탐욕 알고리즘은 제약 조건 내에서 1kK(1μkz~k)1 - \prod_{k \in \mathcal{K}} (1 - \mu_k \tilde{z}_k)를 최적화할 수 있는 적합한 z~k\tilde{z}_k 값을 효율적으로 선택합니다.

  • Sum Up Combination (SUC): 보상 함수 r(S;μ)=kSμkr(S; \mu) = \sum_{k \in S} \mu_k 를 사용하여 다음과 같은 완화된 최적화 문제를 정의합니다.

maxkKμkz~k,kKz~k=N,kKct,kz~kρ,0z~k1,kK.\max \sum_{k \in \mathcal{K}} \mu_k \tilde{z}k, \quad \sum{k \in \mathcal{K}} \tilde{z}k = N, \quad \sum{k \in \mathcal{K}} c_{t,k} \tilde{z}_k \leq \rho, \quad 0 \leq \tilde{z}_k \leq 1, \forall k \in \mathcal{K}.

이와 같은 선형 프로그래밍 문제는 다항 시간 내에 쉽게 해결할 수 있습니다.

  • All In Combination (AIC): 보상 함수 r(S;μ)=kSμkr(S; \mu) = \prod_{k \in S} \mu_k 를 사용하여 이 접근법은 모든 LLM이 작업을 성공적으로 완료해야 하는 개발 작업을 예로 듭니다.

All In Combination (AIC)

보상 함수 r(S;μ)=kSμkr(S; \mu) = \prod_{k \in S} \mu_k 는 결합적 보상 함수로서, 가능한 행동 집합을 S2={SK:S=N}S_2 = \{ S \subseteq \mathcal{K} : |S| = N \} 로 정의합니다. 우리는 완화된 보상 함수를 r~(Z~,μ~)=kKμ~kz~k\tilde{r}(\tilde{Z}, \tilde{\mu}) = \prod_{k \in \mathcal{K}} \tilde{\mu}_k \tilde{z}_k 로 설정하여 다음의 최적화 문제를 해결합니다:

max{kKμ~kz~k:kKz~k=N,kKct,kz~kρ,0z~k1,kK}.\max \left\{ \prod_{k \in \mathcal{K}} \tilde{\mu}k \tilde{z}k : \sum{k \in \mathcal{K}} \tilde{z}k = N, \quad \sum{k \in \mathcal{K}} c{t,k} \tilde{z}_k \leq \rho, \quad 0 \leq \tilde{z}_k \leq 1, \forall k \in \mathcal{K} \right\}.

위의 최적 해는 로그-선형 프로그래밍 문제를 해결하는 것과 같으며, 이를 통해 최적화 문제를 더 쉽게 해결할 수 있습니다.

조합적 LLM을 위한 온라인 업데이트

기존의 완화 방법과 달리, 우리 전략은 로컬 서버가 다중 피드백을 활용하여 보상과 비용 예측을 동적으로 조정하도록 합니다. 구체적으로, 선택된 LLM에서 얻은 부분적 조합 피드백 모델이 사용됩니다.

로컬 서버는 선택된 LLM의 보상과 비용 추정치를 다음과 같이 업데이트합니다.

μ^t+1,k=Tt,μkμ^t,k+Xt,kTt+1,μk,c^t+1,k=Tt,ckc^t,k+yt,kTt+1,ck,kFt.\hat{\mu}{t+1,k} = \frac{T{t,\mu_k} \hat{\mu}{t,k} + X{t,k}}{T_{t+1,\mu_k}}, \quad \hat{c}{t+1,k} = \frac{T{t,c_k} \hat{c}{t,k} + y{t,k}}{T_{t+1,c_k}}, \quad k \in F_t.

여기서 Xt,kX_{t,k} 는 LLM kk 가 제공한 보상이고, yt,ky_{t,k} 는 비용입니다.

스케줄링 클라우드의 절차

LLM 선택을 위한 이산화 라운딩: 우리 아키텍처에서, 스케줄링 클라우드는 로컬 서버와 통신하며, 로컬 서버는 연속 데이터를 스케줄링 클라우드로 전송하여 최적의 LLM 집합을 선택합니다. 이산화 라운딩을 통해 Z~t\tilde{Z}_t 를 이산화하여 가능한 LLM 집합 StS_t 를 선택합니다.

이 이산화 라운딩은 LLM 조합 선택의 복잡성을 줄이고, Appendix E.3에 있는 효율성 비교 결과에서도 확인할 수 있습니다.


5 성능 분석

본 섹션에서는 C2MAB-V의 이론적 성능(후회와 위반)을 종합적으로 분석합니다. 페이지 제한으로 인해 상세한 증명은 부록 D에 포함하였습니다.

분석을 위해 몇 가지 정의를 소개합니다.

정리 1 (후회 한계)

신뢰 반경에서 \delta = 1/T일 때, 다중 LLM 선택 문제에 대한 \alpha-근사 후회는 다음과 같이 경계 지어지며, 확률이 적어도 1 - 1/T 이상일 때 성립합니다:

R(T)2Lo2NKTln(2π2KT3)+(K+1)r.R(T) \leq \frac{2L}{o} \sqrt{2NKT \ln \left( \frac{2\pi^2 KT}{3} \right)} + (K+1) r^.

비고 1

C2MAB-V 프레임워크는 장기적인 비용 고려 사항을 포함하여 기존의 CMAB 모델을 확장합니다. [38]의 선형 CMAB 모델과 비교했을 때, 이 후회 경계는 매개변수 불확실성 관리가 효율적으로 이루어짐을 보여줍니다. 우리의 접근법은 완화된 NP-난해 문제에서 이산화 라운딩을 도입하여 차별화됩니다.

정리 2 (위반 한계)

신뢰 반경에서 δ=1/T\delta = 1/T일 때, 최악의 경우 제약 위반은 다음과 같이 경계 지어지며, 확률이 적어도 1 - 1/T 이상일 때 성립합니다:

V(T)NKT(22ln(2π2KT3)+NKT).V(T) \leq \sqrt{\frac{NK}{T}} \left( 2 \sqrt{2 \ln \left( \frac{2 \pi^2 KT}{3} \right)} + \sqrt{\frac{NK}{T}} \right).

비고 2

우리의 분석 결과에 따르면, 위반률은 O(KT)O\left(\sqrt{\frac{K}{T}}\right)의 속도로 감소하며, 이는 장기적으로 위반이 제거될 가능성을 시사합니다.


6 성능 평가

실험 설정: SciQ 데이터셋 [69]을 사용하여 세 가지 다중 LLM 보상 모델(AWC, SUC, AIC)을 9개의 LLM에서 평가했습니다. 비용은 공식 가격을 기반으로 계산되며, 실험은 10개의 시드에서 평균되었습니다. 자세한 설정은 Appendix E.1을 참조하십시오.

비교 기준: 비교는 GPT-4, ChatGLM2, CUCB, Thompson Sampling, e-Greedy 등과 함께 수행되었습니다.


그림 4: 9개의 다른 LLM에 대해 세 가지 작업 유형의 보상/위반 비율 비교

(a) AWC (b) SUC (c) AIC

고정 비용 또는 선형 보상에서의 C2MAB-V의 견고성: C2MAB-V의 강인성은 (αμ,αc)(\alpha_\mu, \alpha_c) 매개변수의 다양한 값 (0.3, 0.05), (1, 0.05), (0.3, 0.01), (1, 0.01)로 검증됩니다. 사전 학습된 다중 LLM의 고정 조합을 사용하여 온라인 쿼리에 적용하여 피드백 기반 온라인 학습이 오프라인 영역의 LLM 선택을 조정하는 데 어떻게 도움이 되는지 탐색합니다.

성능 메트릭

보상과 비용 간의 균형을 위해, 우리는 보상/위반 비율로 성능을 평가합니다. 이는 라운드당 평균 보상을 라운드당 평균 위반으로 나눈 값이며, 높은 비율은 우수한 성능을 나타냅니다.

평가 결과

보상/위반 비율 성능 결과는 그림 4에 나타나 있습니다. AWC 모델에서 C2MAB-V는 모든 매개변수 설정에서 다른 알고리즘보다 일관되게 우수한 성능을 보이며, 이는 C2MAB-V의 보상과 위반 간의 균형을 유지하는 능력을 강조합니다. 알고리즘은 1,000라운드 이내에 수렴하여 (ϵ\epsilon)-greedy 알고리즘보다 빠르게 학습합니다.

C2MAB-V는 e-Greedy 대비 64.72% 개선, Thompson Sampling 대비 3.9배, CUCB 대비 4배, GPT-4 단일 사용 대비 6배의 성능을 보입니다.


7 결론

본 논문에서는 비용 효율적인 조합 온라인 모델인 C2MAB-V를 제안했습니다. C2MAB-V는 실험을 통해 비용 효율성과 성능을 모두 유지할 수 있는 능력을 입증했습니다.

향후 연구는 로컬-클라우드 아키텍처 내의 LLM 간의 상호작용을 강화하는 데 중점을 둘 수 있습니다.


위 내용에서 추가적인 설명이 필요하시거나 다른 부분에 대해 궁금하신 사항이 있으시면 알려주세요.

profile
NLP 공부합니당

0개의 댓글