Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics

하임·2026년 1월 9일

Routing

목록 보기

28/44

이 논문 “Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics”는 대형 언어 모델(LLMs)을 보다 효율적이고 사용자 맞춤형으로 선택 및 활용하기 위한 시스템인 OptiRoute를 제안합니다. 아래에 논문의 내용을 핵심적으로 정리하고, 각 구성 요소와 기여점을 자세하게 설명드리겠습니다.

🔍 1. 연구 목적 및 배경

GPT-4, BART, LLaMA 등 LLM의 도입이 늘어나면서, 모든 작업에 초대형 모델을 사용하는 비효율성 문제가 대두되고 있음.
특히 성능뿐만 아니라 비용, 응답 속도, 윤리성(정직성, 무해성, 유용성)을 고려한 모델 선택이 중요.
Huggingface 등에서 수십만 개의 모델이 공유되지만 실제 활용은 일부 인기 모델에만 집중됨.
문제의식:
- LLM은 비싸고 느리며, 모든 작업에 필요하지 않음
- 윤리성을 고려한 라우팅은 거의 존재하지 않음
- 사용자 선호 기반의 다기준 모델 선택 시스템의 부재

🧠 2. OptiRoute 시스템 개요

사용자의 기능적(성능, 속도, 비용) + 비기능적(정직성, 무해성, 유용성) 선호도에 따라 최적의 LLM을 선택하고 라우팅함.

주요 컴포넌트:

구성 요소	설명
Task Analyzer	쿼리의 유형, 도메인, 복잡도 분석하여 task vector 생성
Model Registry & Evaluation Store (MRES)	다양한 모델을 벡터 DB로 저장하고 평가 지표 (정확도, 응답시간, 윤리성 등) 포함
Routing Engine	kNN 기반 검색 → 필터링 → 스코어링 → 모델 선택
Inference + Feedback Engine	실행 결과에 대해 사용자 피드백 받아 루프 개선

특징:

실시간(interactive) & 배치(batch) 모드 모두 지원
사용자 선호도: 명시적(정확도=0.9 등) + 암묵적(문맥에서 추론된 요구)
윤리적 요소까지 고려한 모델 선택 (AI alignment 개념 반영)

📊 3. Task Analyzer

FLAN-T5 기반 400M encoder-decoder 모델 사용
instruction-tuning 및 self-instruct 방식으로 fine-tuned
입력 쿼리로부터:
- task_type: 예) 감성 분석, QA
- domain: 예) 법률, 금융
- complexity: 예) 0.2 (간단), 0.8 (복잡)

긴 입력 쿼리는 앞/뒤 n단어 + 중간 샘플링으로 프루닝

🗃 4. MRES (Model Registry Evaluation Store)

다양한 모델의 embedding 및 메타 정보를 포함한 in-memory 벡터 DB
모델별로:
- 정확도, 지연시간, 비용
- helpfulness, harmlessness, honesty 등 윤리 지표
*정규화(0~1 범위)**를 통해 모델 간 비교 용이화
Cosine Similarity로 task vector와 모델 vector 간 거리 계산

🔁 5. Routing Engine

Task Vector ↔ Model Embedding 비교 (Cosine Distance)
kNN 탐색 후:
- 도메인 태그 기반 필터링
- 사용자 가중치 기반 다기준 점수 계산
- fallback 전략: 일반 범용 모델 or 사용자 입력 요청

최종적으로 task vector에 가장 적합한 모델을 선택

🔄 6. 사용자 피드백 루프

thumbs-up/down 방식으로 feedback 수집
negative feedback 시:
- 잘못된 모델 선택 원인 분석
- MRES 갱신 → 향후 유사 쿼리에는 다른 경로 제안

🏢 7. 활용 사례

클라우드 기반 ML 서비스 (MLaaS)
- AWS, GCP 등에서 응답속도와 비용의 균형 유지
개인화된 AI 서비스
- 사용자 선호에 따라 추천, 비서, 마케팅 모델 변경
규제 산업 (헬스케어, 금융, 법률)
- 윤리성 + 정확성 모두 보장해야 하는 환경에 적합
데이터 라벨링 최적화
- 단순 작업 → 저비용 모델, 복잡 작업 → 고성능 모델

🔬 8. 관련 연구와 차별점

관련 기술	OptiRoute와의 연관성
HuggingGPT	다중 모델 활용이 유사하지만, OptiRoute는 단일 작업에 대해 최적 모델 선택에 집중
Quantization / LoRA / qLoRA	MRES의 저비용 모델 확보 및 빠른 추론을 위한 수단으로 활용 가능
Model Soup / Ensembling	향후 확장 방향에서 여러 모델을 융합하여 사용자 요구 조건에 부합
Knowledge Distillation	간단 작업에는 distilled 모델 활용 가능
Sparse MoE	필요할 때만 일부 전문가 모델 활성화하는 점에서 유사한 목표 공유

🌱 9. 향후 방향

동적 모델 병합: 서로 다른 장점을 가진 모델을 실시간으로 합쳐 사용자의 조건에 맞는 하이브리드 모델 생성
- 예: 정확한 but 비싼 모델 + 빠른 but 부정확한 모델 → 절충

✅ 핵심 기여 정리

다양한 LLM을 정확도, 비용, 지연시간, 윤리성 등 다기준 기반으로 동적으로 선택
사용자 선호도를 명시적 + 암묵적으로 분석하여 LLM 선택에 반영
실시간 적응 가능한 라우팅 시스템을 제안
후속 피드백 루프를 통해 선택 전략 지속 개선

좋습니다. 이 논문에서 제안한 OptiRoute 시스템의 구체적인 작동 방법(Methodology)을 단계별로 상세하게 설명해드릴게요. OptiRoute는 사용자 선호도 기반으로 LLM을 선택하고 실행하는 동적 라우팅 시스템이며, 그 흐름은 다음과 같은 순서로 구성됩니다.

🧩 전체 구조 개요

사용자 입력(쿼리) → Task Analyzer → Query Embedding → Model 검색(kNN) → 최적 모델 선택 → 추론 → 사용자 피드백 → 시스템 개선

🔧 1. 사용자 선호도(User Preferences) 정의 및 입력

📌 구성

명시적(Explicit): 사용자가 직접 점수를 입력 예) 정확도 0.9, 속도 0.7, 정직성 1.0
암묵적(Implicit): 시스템이 쿼리를 분석하여 추론 예) 감성 분석 → 정확도 우선, 짧은 쿼리 → 저복잡도 추정

📊 선호도 항목

기능적(Function)	비기능적(Non-Function)
정확도, 속도, 비용	정직성, 무해성, 유용성, 창의성 등

📁 예시 입력

{
  "accuracy": 0.9,
  "latency": 0.6,
  "honesty": 1.0
}

🧠 2. Task Analyzer (쿼리 분석기)

목적:

쿼리의 유형(type), 도메인(domain), 복잡도(complexity) 분석 → task vector 생성

구성 요소:

FLAN-T5 기반 400M 모델
Instruction-tuned → 입력된 쿼리로부터 아래 JSON 형태 출력

🧪 예시 출력:

{
  "task_type": "sentiment_analysis",
  "domain": "food_reviews",
  "complexity": 0.2
}

⚙️ 최적화 기법:

4~8bit quantization 적용 가능
긴 입력 쿼리 → 앞/뒤/n개 단어 + 중간 일부 샘플링으로 프루닝

🗃️ 3. MRES (Model Registry and Evaluation Store)

사전 평가된 모든 모델의 벡터 임베딩과 메타데이터 저장소 (Vector DB)

포함 정보:

모델명, 구조, 파라미터 수, 라이센스 정보
성능 메트릭: 정확도, 지연 시간, 비용
윤리성 지표: helpfulness, harmlessness, honesty
벤치마크 기반 정규화: 모든 수치가 0~1로 scaling됨

예시:

Model	Accuracy	Cost	Honesty	Latency
LLaMA-7B	0.7	0.1	0.8	0.5
GPT-4	0.95	0.9	0.95	0.9

🚦 4. Routing Engine (모델 선택기)

입력:

Task Vector (쿼리 임베딩)
사용자 선호도 점수 (weight vector)

과정:

kNN 검색
- Task Vector와 MRES 내 모델 벡터 간 Cosine Similarity 계산
- 상위 k개 후보 모델 선택
도메인 기반 필터링
- 예: 법률 도메인 → 법률 관련 모델만 통과
점수 기반 재정렬
- 사용자 선호도를 기반으로 각 모델 점수 계산 $\text{Total Score} = \sum_i w_i \cdot \text{normalized\_metric}_i$
- 가장 높은 모델 선택
Fallback 전략
- 정확히 맞는 모델이 없으면:
  - General-purpose 모델로 대체
  - 사용자에게 설정 변경 권장

📤 5. Inference + Feedback Engine

모델 실행:

선택된 모델에 쿼리 입력 → 응답 생성

사용자 피드백 수집:

👍/👎 등 단순 피드백 방식

개선 방법:

피드백이 좋으면 현재 라우팅 전략 강화
피드백이 나쁘면:
- task vector와 선택 모델 비교 → 왜 오답인지 분석
- 이후 유사 task에 대해 다른 모델 제안

🧪 예시 시나리오 요약

사용자가 쿼리: "이 문장의 감성은 무엇인가요?" + "정확도=0.9, 비용=0.3"
Task Analyzer:
- 유형: Sentiment Analysis
- 도메인: Food Reviews
- 복잡도: 0.2
Routing Engine:
- Task Vector 생성
- MRES에서 kNN 탐색
- 도메인 필터링 후 최종 스코어링
최종 선택 모델: LLaMA 13B (성능과 비용 균형)
결과 출력 → 사용자 피드백 수집

📌 요약

단계	구성 요소	설명
1	사용자 선호도 입력	명시적/암묵적 선호도 추출
2	Task Analyzer	쿼리 임베딩 및 task vector 생성
3	MRES	다양한 모델 + 정규화된 성능/윤리 메트릭 저장
4	Routing Engine	kNN → 필터링 → 스코어링 → 모델 선택
5	Inference & Feedback	실행 + 피드백으로 시스템 성능 개선

📄 ABSTRACT (초록)

GPT-4, BART, LLaMA와 같은 대형 언어 모델(LLMs)의 광범위한 배치와 함께, 특정 작업에 대해 가장 적합한 모델을 지능적으로 선택할 수 있는 시스템의 필요성이 커지고 있다. 이러한 선택은 비용, 지연 시간(latency), 정확도, 윤리적 고려사항(예: 정직성, 무해성, 유용성) 간의 균형을 고려해야 한다.

우리는 이 문제를 해결하기 위해 OptiRoute를 소개한다. 이는 사용자가 정의한 세부 요구사항에 따라 최적의 LLM을 동적으로 선택하고 라우팅할 수 있도록 설계된 고급 모델 라우팅 엔진이다.

OptiRoute는 정확도, 속도, 비용과 같은 기능적 요소뿐 아니라 정직성, 무해성, 유용성과 같은 비기능적(윤리적) 요소를 함께 고려한다. 이를 위해 경량의 작업 분석 및 복잡도 추정(task analysis & complexity estimation) 기법을 활용하여 다양한 LLM 중 최적 모델을 효율적으로 선택한다.

OptiRoute는 k-최근접 이웃(kNN) 검색과 계층적 필터링을 결합한 하이브리드 접근 방식을 사용하며, 사용자 우선순위를 반영하면서도 계산 자원을 최소화하도록 설계되었다. 이 시스템은 클라우드 기반 ML 플랫폼, 개인화된 AI 서비스, 규제 산업 등에서 실시간 응용에 이상적이다.

🔑 General Terms (일반 용어)

LLM 최적화, 벤치마크, 평가, 라우팅, 복잡도 추정, 피드백, 도메인 적응

🧾 Keywords (키워드)

GPT4, Llama, 정직성, 무해성, 유용성, 지연 시간, 정확도, 비용, kNN, OptiRoute, 도메인, 모델 병합, 재정렬, 폴백(fallback), 지시 이행 능력(steerability), MLaaS, 헬스케어, 금융, 법률, 환각(hallucination), 근거 기반 응답, FLAN, BERT, BART

📘 1. INTRODUCTION (서론)

GPT-4, BART, LLaMA와 같은 대형 언어 모델(LLMs)의 빠른 발전은 자연어처리(NLP) 분야를 혁신적으로 변화시켰으며, 특히 의료, 금융, 법률, 고객 지원 등 다양한 분야에서 고도화된 응용을 가능하게 만들었다. 이러한 모델들은 수억~수천억 개의 파라미터와 심층 신경망 아키텍처를 기반으로, 텍스트 생성, 번역, 감정 분석, 다중턴 대화 등에서 최신(state-of-the-art) 성능을 보여주고 있다.

하지만 이러한 LLM의 실사용 배치는 다음과 같은 심각한 문제점을 수반한다:

고비용, 높은 자원 요구량 → 중소 규모 조직에 장애가 됨
Huggingface에만도 48만 개 이상의 모델이 존재하고, 하루에 1천 개 이상이 새로 추가됨
현실에서는 소수 인기 모델에만 의존 → 대부분의 모델은 활용되지 못함

이는 특정 작업에 최적화된 모델을 효율적으로 탐색하고 선택하는 시스템의 필요성을 시사한다.

❗ 주요 문제 1: 고비용 및 비효율

GPT-4 같은 초대형 모델은 수백억 개의 파라미터로 인해 지연 시간 증가, 운영 비용 상승 초래
대부분의 시스템은 “하나의 모델로 모든 작업을 처리”하려고 함 → 작업 복잡도에 따른 자원 최적화 불가능
단순한 작업에도 초거대 모델을 사용하는 낭비 발생

❗ 주요 문제 2: 윤리적 고려 부족

AI가 사람과 상호작용하는 사례 증가 → 모델이 정직하고, 해를 끼치지 않으며, 유용해야 함
현재 시스템은 정확도나 속도 중심이고, 윤리적 기준은 무시됨
편향된 응답, 신뢰도 저하, 규제 위반 등의 위험 증가

✅ 해결책: OptiRoute

OptiRoute는 위 문제들을 해결하기 위해 제안된 시스템으로,

사용자 요구사항(정확도, 비용, 속도, 정직성 등)을 바탕으로

작업별로 최적 LLM을 동적으로 선택하여 라우팅한다.

⚙️ 시스템 핵심 방법론 요약 (하단 캡처 이미지 기준)

1️⃣ Task Analyzer

쿼리 입력 시, 해당 작업의 유형, 도메인, 복잡도를 자동 추론
이 정보를 기반으로 Task Vector (작업 벡터)를 생성

2️⃣ Model Repository and Evaluation Store (MRES)

다양한 LLM의 성능 메트릭을 저장한 임베딩 기반 벡터 DB
저비용 오픈소스부터 고성능 상용 모델까지 포함

3️⃣ Routing Engine

사용자 정의 선호도와 Task Vector를 바탕으로 kNN 검색
비용/속도/정확도/윤리성 등 다양한 요소를 균형 있게 고려
최종적으로 가장 적합한 모델 1개 선택

4️⃣ Feedback Loop

모델의 결과에 대해 사용자가 좋음/나쁨 피드백 제공
시스템은 이를 학습하여 향후 라우팅 전략을 지속적으로 개선

📗 2. APPLICATIONS OR USE-CASES (응용 또는 사용 사례)

—Cloud-Based Machine Learning Platforms (MLaaS):

OptiRoute는 AWS, Google Cloud, Azure와 같은 MLaaS 플랫폼에 통합될 수 있으며, 사용자 지정 기준(예: 비용, 지연 시간, 정확도, 윤리적 고려사항)에 따라 LLM 선택 및 배치를 최적화합니다.

이를 통해 자원 활용 효율화, 운영 비용 절감, 클라우드 기반 AI 서비스의 성능과 신뢰성 향상을 달성할 수 있습니다.

특히 정확도와 예산 제약의 균형이 필요한 챗봇과 같은 응용에 매우 적합합니다.

—Personalized AI Services (개인화된 AI 서비스):

추천 엔진, 가상 비서, 맞춤형 마케팅 등 개인화된 AI 서비스에서, OptiRoute는 개별 사용자 선호에 맞는 모델 선택을 통해 응답을 최적화합니다.

정확도, 속도, 비용, 프라이버시 등 다양한 우선순위를 기반으로 작업을 라우팅함으로써, 사용자 만족도와 참여도 향상, 보다 개인화되고 효과적인 상호작용을 제공합니다【16】.

—Regulated Industries (규제 산업):

OptiRoute는 헬스케어【11】, 금융【17】【18】, 법률【10】 등 규제 산업에 적합합니다.

이들 산업은 정확성, 보안성, 윤리적 준수가 필수적이며, OptiRoute는 예를 들어 의료 진단이나 금융 거래와 같은 작업을 규제 준수를 충족하는 고정확도 모델로 라우팅할 수 있습니다.

이를 통해 윤리적 AI 행동을 보장하고, 중대한 응용의 신뢰성과 규제 위험 최소화에 기여합니다.

—Data Annotation and Labeling for AI Training (AI 학습용 데이터 주석화):

대규모 라벨링이 필요한 AI 학습 과정에서, OptiRoute는 작업 유형별로 최적 모델을 선택하여 주석화 효율을 높일 수 있습니다.

예를 들어, 단순 작업은 빠르고 저렴한 모델이, 복잡하거나 모호한 작업은 고정확도 모델이 수행하도록 지능적으로 분배함으로써 전체 라벨링 품질과 시간 비용을 절감합니다.

📘 3. SYSTEM DESIGN ARCHITECTURE (시스템 설계 아키텍처)

OptiRoute는 다음 두 가지 동작 모드를 제공합니다:

✅ Batch 모드

*사용자 요구사항 + 쿼리 모음(batch)**을 입력으로 받음
ex: 정확도 0.9, 비용 0.5, 속도 0.7 등 최적화 기준 제공
전체 쿼리의 일부(2%)만 샘플링하여 전체 batch에 적합한 LLM을 선정
쿼리가 동질적일 때 적합하며, 개별 평가를 생략해 비용 절감 가능

✅ Interactive 모드

실시간 개별 쿼리 분석 후 최적 LLM 라우팅
ex: 고객 서비스, 챗봇, 가상 비서 등 즉각 대응이 필요한 응용에 적합
개별 쿼리별 정확도, 응답 속도, 비용 등을 최적화

사용자는 효율성과 응답 정확도 사이의 균형을 고려해 적절한 모드를 선택할 수 있으며, OptiRoute는 대규모 배치 처리부터 실시간 대화형 시스템까지 폭넓게 대응할 수 있도록 설계되어 있음.

3.1 User Preferences (사용자 선호도)

*사용자(User)와 선호도(Preferences)**는 다음과 같이 구분됨:

유형	예시
명시적(Explicit)	정확도, 속도, 비용, 정직성, 무해성, 유용성, 창의성 등 (0~1 사이 점수로 입력)
암묵적(Implicit)	작업 유형(task-type), 복잡도, 도메인 등 쿼리로부터 자동 추론됨

Table 1. 사용자 선호도 예시

명시적(Explicit)	암묵적(Implicit)
Accuracy	Task-type
Latency	Complexity
Cost	Domain
Harmlessness
Honesty
Helpfulness
Steerability
Creativity

사용자 역할의 예:

MLaaS 사용자 (end-user)
플랫폼 관리자인 AI 엔지니어 또는 MLE (Admin)

UI 측면에서는 “비용 중심”, “윤리 중심”, “지연 시간 우선” 등과 같은 미리 설정된 프로파일(profile) 형태로 복잡한 설정을 간편하게 제공할 수도 있음.

3.2 Task Analyzer (작업 분석기)

경량 ML 모델: FLAN-T5 기반의 400M encoder-decoder 구조
*instruction fine-tuning(IFT)**을 통해 쿼리로부터:
- (i) task type
- (ii) domain
- (iii) complexity 를 예측하여 structured JSON 출력

학습 데이터 구성:

Supervised + Synthetic (Self-instruct, Self-align) 혼합 방식
MLaaS 실제 쿼리 로그에서 추출된 샘플 쿼리에 대해 SSL + 인간 주석 혼합

최적화 기법:

4-bit 또는 8-bit 정밀도 양자화로 속도 및 메모리 사용량 최소화
긴 쿼리는 앞 n개 + 뒤 n개 단어 + 중간 샘플 방식으로 프루닝하여 처리

Fig. 3에 예시 JSON 출력이 등장 (감성 분석 쿼리 기반)

📘 3.3 Model Registry Evaluation Store (MRES)

(모델 레지스트리 및 평가 저장소)

MRES는 OptiRoute 시스템에서 핵심적인 구성 요소로, 중앙 저장소의 역할을 수행합니다.

이곳에는 사용 가능한 모든 모델이 저장되고 평가되며, 모델 선택 과정에서 접근할 수 있도록 관리됩니다.

이 저장소는 대형 언어 모델(LLMs)의 포괄적인 인벤토리를 유지하는 것을 목적으로 하며, 여기에는 상용 모델과 오픈소스 모델이 모두 포함됩니다. 각 모델은 다양한 성능 및 윤리 메트릭과 함께 주석(메타데이터)이 달려 있으며, 이를 기반으로 작업에 적합한 모델을 선택할 수 있도록 합니다.

MRES의 핵심 기술은 인-메모리 벡터 데이터베이스로, 빠른 검색과 효율적인 저장을 가능하게 합니다.

각 모델은 다음과 같은 정보를 포함합니다:

모델 아키텍처 및 파라미터 수
다양한 벤치마크에서의 성능
정확도, 추론 시간, 1회 추론 비용
윤리성 관련 메트릭(정직성, 무해성, 유용성)
보안, 프라이버시 기능, 신뢰성(예: uptime 비율 등)

🔄 메트릭 정규화

MRES에 저장된 다양한 메트릭은 단위와 범위가 서로 다르므로, 이를 0~1 범위로 정규화(normalization) 하여 모델 간 비교가 가능하도록 만듭니다.

예:

최고 정확도의 모델 → 정규화 정확도 점수 = 1.0
느린 모델 → 정규화된 속도 점수 낮음

이렇게 표준화된 형식 덕분에 라우팅 엔진이 사용자 우선순위에 따라 모델을 공정하게 비교 및 선택할 수 있습니다.

🚦 3.4 Routing Engine (라우팅 엔진)

라우팅 엔진은 OptiRoute의 중심 구성 요소로, 사용 가능한 모델 중에서 가장 적합한 LLM을 선택하는 역할을 수행합니다. 다음과 같은 기술적 구성으로 작동합니다:

🔶 입력 정보

Task Analyzer가 생성한 Task Vector (쿼리 임베딩)
MRES에 저장된 모델 임베딩 벡터들

🔷 작동 과정

임베딩 기반 검색

Task Vector와 모델 임베딩 간 유사도를 코사인 유사도(cosine similarity) 기반으로 계산
k-최근접 이웃(kNN) 탐색

Task Vector와 가장 유사한 상위 k개의 모델을 검색
도메인 필터링

예: 법률 관련 작업이면, 법률 태그 없는 모델 제거
사용자 선호도 기반 점수화

사용자의 명시적 선호도(정확도=0.9 등)를 기준으로, 각 모델의 정규화된 메트릭에 가중치 곱하여 총점 계산
최종 선택 or Fallback
- 적합한 모델이 없으면 범용 모델(general-purpose LLM) 사용
- 혹은 사용자에게 추가 설정 요청
- 또는 더 유사한 모델을 포함하여 검색 범위를 확장

코사인 유사도(Cosine Similarity): 벡터 간 각도의 코사인을 측정하여 방향 기반의 유사도를 판단 (크기보다 의미 중심의 비교에 적합)

🔁 3.5 Inference Engine & User Feedback (추론 엔진 및 사용자 피드백)

✅ Inference Engine (추론 엔진)

사용자가 입력한 쿼리에 대해 선택된 모델을 실행하여 응답 생성
사용자 선호도를 고려하여 수행되며, 결과 품질이 사용자 요구사항을 만족하는지 여부가 핵심

✅ User Feedback (사용자 피드백)

사용자는 결과에 대해 👍 (좋아요), 👎 (싫어요) 방식의 간단한 피드백 제공

🔄 피드백의 역할:

👍: 선택된 모델이 적절했고 기대를 충족함을 의미 → 기존 라우팅 전략 강화 (유사 쿼리에도 동일 경로 유지)
👎: 응답이 부적절하거나 만족스럽지 못했음을 의미 → 모델 선택 로직을 재검토

이때 시스템은 다음과 같은 분석 수행:

작업 벡터(Task Vector)의 특성

선택된 모델의 능력

출력 결과의 품질

→ 이를 통해 어떤 부분에서 부적합했는지 분석함

(예: 모델이 작업 복잡도에 비해 성능 부족, 도메인 일치 실패, 윤리적 기준 미충족 등)

이 피드백 루프는 OptiRoute가 지속적으로 라우팅 전략을 개선하고 진화할 수 있도록 하는 핵심 기전입니다.

하임

NLP 공부합니당

이전 포스트

MasRouter: Learning to Route LLMs for Multi-Agent Systems

다음 포스트