Universal Model Routing for Efficient LLM Inference

하임·2026년 1월 9일

Routing

목록 보기

24/44

초록(Abstract)

대형 언어 모델(LLM)의 능력이 크게 향상됨에 따라 추론 비용 역시 상당히 증가하게 되었습니다. 모델 라우팅(model routing)은 추론 비용을 줄이기 위한 간단한 기법으로, 다수의 후보 LLM을 유지한 상태에서 각 프롬프트마다 가장 비용이 적게 드는 LLM을 선택하는 방식입니다. 기존의 연구들은 고정된 LLM 풀(fixed pool)에 대해 라우터를 학습하는 데 초점을 맞춰왔습니다. 본 논문에서는 동적 라우팅(dynamic routing) 문제를 다룹니다. 이 문제는 이전에 관찰되지 않은 LLMS(unobserved LLMs)이 테스트 시점에 사용 가능할 경우에 발생합니다. 우리는 각 LLM을 피처 벡터(feature vector)로 표현하는 새로운 접근 방식을 제안하며, 이 피처 벡터는 대표 프롬프트 집합에 대한 예측 결과(predictions)를 기반으로 도출됩니다.

이를 바탕으로 우리는 두 가지 효과적인 전략을 상세히 소개합니다. 하나는 클러스터 기반 라우팅(cluster-based routing)이고, 다른 하나는 학습된 클러스터 맵(learned cluster map)을 사용하는 방식입니다. 우리는 이러한 전략들이 이론적으로 최적의 라우팅 규칙에 대한 근사값임을 증명하고, 초과 리스크 경계(excess risk bound)를 제공하여 그 오차를 정량화합니다. 다양한 공개 벤치마크에 대한 실험을 통해, 30개가 넘는 이전에 관찰되지 않은 LLM들에 대해 제안된 전략들의 효과를 입증합니다.

1 서론(Introduction)

대형 언어 모델(LLM)은 최근 몇 년 사이에 그 성능과 능력 면에서 비약적인 발전을 이루어왔습니다 [Radford et al., 2018, 2019, Brown et al., 2020, Touvron et al., 2023, Anil et al., 2023, Grattoni et al., 2024, DeepSeek-AI et al., 2024]. 이러한 뛰어난 성능에도 불구하고, LLM의 추론 비용(inference cost)은 매우 높을 수 있습니다 [Li et al., 2024a, Wan et al., 2024, Zhou et al., 2024b]. 이러한 상황은 추론 효율성을 향상시키기 위한 다양한 기술들의 연구를 촉진시켰습니다. 예를 들어, 추측적 디코딩(speculative decoding) [Stern et al., 2018, Chen et al., 2023a, Leviathan et al., 2023], 조기 종료(early-exiting) [Schuster et al., 2022], 양자화(quantisation) [Chee et al., 2023], 가지치기(pruning) [Frantar and Alistarh, 2023], 지식 증류(distillation) [Agarwal et al., 2024, Rawat et al., 2024], 그리고 기타 여러 기술들 [Pope et al., 2023, S et al., 2024, Menghani, 2023]이 제안되었습니다.

우리가 관심을 가지는 주제는 바로 효율적인 추론을 위한 모델 라우팅(model routing)입니다. 여기서 우리는 다양한 크기와 능력을 가진 후보 LLM들을 유지합니다. 질의가 주어지면, 그 질의에 대해 합리적으로 응답할 수 있는 최소 비용의 LLM을 예측하도록 라우터를 학습합니다. 이러한 방식은 비교적 간단하지만 효과적인 기법으로, 최근 들어 큰 주목을 받고 있습니다 [Hendy et al., 2023, Hari and Thomson, 2023, Ding et al., 2024, Sakota et al., 2024, Chen et al., 2024b, Hu et al., 2024b, Shinn et al., 2023, Wang et al., 2023, Stripelis et al., 2024, Ong et al., 2024, Zhuang et al., 2024, Feng et al., 2024, Lu et al., 2024, Zhao et al., 2024, Dann et al., 2024, Agarwal et al., 2024, Lee et al., 2024a].

이상적으로는, 라우터가 이러한 새로운 LLM들을 적극 활용할 수 있어야 합니다. 이를 위해 가장 간단한 접근법은, 후보 LLM 풀이 바뀔 때마다 라우터를 재학습하는 것입니다. 그러나 LLM 풀이 자주 바뀌는 경우, 라우터를 매번 재학습하는 것은 모델 학습 비용과 시간, 새로운 LLM에 대한 학습용 라벨 수집 비용 때문에 비효율적일 수 있습니다.

이에 본 논문에서는 동적 라우팅(dynamic routing) 문제를 형식화합니다. 이 문제는 이전에 관찰되지 않은 LLM들이 테스트 시점에서 사용 가능한 경우를 다룹니다. 우리는 이 문제를 해결하기 위해, 각 LLM을 피처 벡터(feature vector)로 표현하는 새로운 접근법을 제안합니다. 이 피처 벡터는 대표 프롬프트 집합에서의 예측 정확도(prediction correctness)를 기반으로 도출됩니다. 이 방식은 최근의 연구들에서 사용되는 사전 학습 데이터 선택(pre-training data selection) [Thrush et al., 2024], 전문가 위임(deferral to an expert) [Tailor et al., 2024], LLM 임베딩 구성(LLM embeddings) [Zhuang et al., 2024] 등과 개념적으로 유사합니다. 이 기반 위에서, 우리는 클러스터 기반 라우팅(cluster-based routing)과 학습된 클러스터 맵(learned cluster map)이라는 두 가지 효과적인 전략을 제안합니다.

이러한 해결책은, 테스트 시점의 새로운 LLM들을 라우터를 재학습하지 않고도 사용할 수 있게 합니다. 이는 대부분의 기존 솔루션들과는 다릅니다. 최근의 일부 연구들 [Feng et al., 2024, Zhao et al., 2024, Li, 2025]은 동적 라우팅에 대한 다양한 해결책을 제안했습니다. 하지만 본 논문은 프롬프트에 대한 외생적 작업 라벨(exogenous task label) 정보 없이도 적용 가능한 이론적으로 정립된 접근법을 제시합니다. 이 방식은 단순한 통계 기반 학습 요소만을 사용하며, 이에 대한 논의는 §4.5에서 보다 자세히 다룹니다.

정리하면, 우리의 기여(contributions)는 다음과 같습니다:

(i) 우리는 동적 LLM 풀을 고려한 모델 라우팅 문제를 형식적으로 정의합니다 (§3).

(ii) 우리는 각 LLM을 예측 정확도 기반의 피처 벡터로 표현하는 새로운 라우팅 접근법을 제안합니다 (§4.1). 이를 바탕으로, 우리는 두 가지 효과적인 전략을 제안합니다. 하나는 비지도 클러스터링, 다른 하나는 지도 학습 기반 클러스터 맵 학습입니다 (§4.2, §4.3). 또한 초과 리스크 경계를 분석합니다 (§4.4).

(iii) 우리는 EmbedLLM [Zhuang et al., 2024], MixInstruct [Jiang et al., 2023], RouterBench [Hu et al., 2024b], Chatbot Arena [Ong et al., 2024] 등 여러 벤치마크 데이터셋에서 실험을 수행하고, 30개 이상의 이전에 관찰되지 않은 LLM들에 대한 효과적인 라우팅 성능을 입증합니다.

LLMs의 사용에서 이상적인 시나리오는 새로운 LLM들을 최대한 활용하는 것입니다. 이를 위해 가장 간단한 접근법은 후보 풀(candidate pool)이 바뀔 때마다 라우터를 재학습하는 것입니다. 하지만 LLM 풀이 자주 바뀐다면, 이러한 재학습은 모델 재학습 비용뿐만 아니라, 새로운 LLM에 대한 학습 라벨 획득 비용 때문에 비효율적일 수 있습니다.

본 논문에서 우리는 동적 라우팅(dynamic routing) 문제를 정식화합니다. 이는 테스트 시점에 이전에 관찰되지 않은(unobserved) LLM들이 사용 가능한 경우를 다룹니다. 우리는 이 문제를 해결하기 위해 새로운 접근법을 제안하는데, 이는 각 LLM을 특징 벡터(feature vector)로 표현하며, 이 벡터는 대표 프롬프트 집합에서의 예측 정확도(prediction correctness)를 기반으로 합니다. 이 방법은 다음과 같은 최근의 흐름과 유사합니다:

사전 학습 데이터 선택을 개선하기 위한 모델 예측 기반 방법 [Thrush et al., 2024]
전문가에게 위임(deferral to an expert) [Tailor et al., 2024]
LLM 임베딩을 구성하는 방법 [Zhuang et al., 2024]

이 기반 위에서 우리는 클러스터 기반 라우팅(cluster-based routing) 및 학습된 클러스터 맵(learned cluster map)이라는 두 가지 효과적인 라우팅 전략을 소개합니다.

이 솔루션은 라우터를 재학습하지 않고도 테스트 시점의 새로운 LLM들을 사용할 수 있게 합니다. 이는 기존 대부분의 해결책들과는 다릅니다. 최근 연구들 [Feng et al., 2024, Zhao et al., 2024, Li, 2025] 역시 동적 라우팅을 다루었지만, 우리는 프롬프트에 대한 외생적 작업 라벨(task label) 정보 없이도 적용 가능한 이론적으로 정립된 접근법을 제안합니다. 이 접근법은 단순한 통계 기반의 학습 원리를 따릅니다 (§4.5에서 추가 논의).

정리된 기여 내용:

(i) 우리는 동적 LLM 풀을 고려한 모델 라우팅 문제를 정식화합니다 (§3).

(ii) 우리는 예측 정확도 기반의 특징 벡터(feature vector)를 사용하여 LLM을 표현하는 새로운 라우팅 접근법을 제안합니다 (§4.1). 이 기반 위에서 비지도 클러스터링과 지도 학습 기반 클러스터 맵을 사용하는 두 가지 라우팅 전략을 제안하고 (§4.2, §4.3), 이에 대한 초과 리스크 경계(excess risk bound)도 함께 제시합니다 (§4.4).

(iii) 우리는 여러 벤치마크 데이터셋(EmbedLLM [Zhuang et al., 2024], MixInstruct [Jiang et al., 2023], RouterBench [Hu et al., 2024b], Chatbot Arena [Ong et al., 2024])에서 30개 이상의 미지의 LLM에 대해 효과적인 라우팅 성능을 보이는 실험 결과를 제시합니다.

문제 정식화 (Problem Formulation)

우리는 위의 예측 설정 하에서의 라우팅 문제를 고려합니다. 후보 LLM들이 M≥2M \geq 2개 있다고 가정하고, 각 LLM m에는 해당하는 추론 비용 $c^{(m)}$ 이 존재합니다 (예: 평균 지연 시간). 우리는 비용이 $c^{(1)} < c^{(2)} < \dots < c^{(M)}$ 의 순서라고 가정합니다.

라우터 $r: \mathcal{X} \to [M]$ 는 프롬프트가 주어졌을 때 최적의 LLM을 선택하는 함수이며, 우리의 목표는 다음 수식을 최소화하는 것입니다:

$\min_{r: \mathcal{X} \to [M]} \mathbb{E}_{(x,y)} \left[ \mathbb{1}(r(x) = m) \cdot \ell(x, y, h^{(m)}) \right]$

단, $\text{단, } \mathbb{E}_{(x,y)} \left[ \mathbb{1}(r(x) = m) \cdot c^{(m)} \right] \leq B$

여기서 $B \in \mathbb{R}_+$ 는 라우팅된 솔루션의 총 비용에 대한 예산입니다. $h^{(m)}(x) = \text{predict}(p^{(m)}(x))$ 는 주어진 LLM의 예측 함수입니다.

평가: 전문가 위임(Evaluation: deferral curve)

우리는 일반적으로 전문가 위임 곡선(deferral curve)을 기반으로 성능을 평가합니다. 이 곡선은 예산 BB와 라우팅된 모델의 손실 간의 트레이드오프를 나타냅니다. 이 곡선은 다음과 같이 정의됩니다:

$\mathcal{C} = \left\{ (B, R(h_{RM}(r_B))) : B \in (c^{(1)}, c^{(M)}] \right\}$

이는 주어진 예산 BB에 대해 라우터 rBr_B를 계산하고, 그에 따른 예측 손실 RR을 추적합니다. 품질 메트릭으로는 정확도 등의 측정 지표도 함께 사용할 수 있습니다.

Pareto 무작위 라우팅(Pareto-random routing)

다중 모델 라우팅에서 가장 간단한 방식은, 비용-손실 쌍 {(c(m),R(h(m)))}{(c^{(m)}, R(h^{(m)}))}의 파레토 최적점(Pareto-optimal points)을 식별하고, 그 중에서 라우팅하는 것입니다.

예를 들어, 예산 B∈(c(ℓ),c(m))B \in (c^{(\ell)}, c^{(m)})인 경우, 비용이 c(ℓ)c^{(\ell)}, c(m)c^{(m)}인 두 모델 사이에서 확률적으로 라우팅합니다:

$\text{확률 } \frac{c^{(m)} - B}{c^{(m)} - c^{(\ell)}}, \quad \frac{B - c^{(\ell)}}{c^{(m)} - c^{(\ell)}}$

이 방식은 입력 무관하며(input-agnostic), 간단하지만 강력한 베이스라인으로 간주됩니다 [Hu et al., 2024b].

모델 라우팅 전략(Model routing strategies)

Narasimhan et al. (2022), Hu et al. (2024b)는 각 LLM별 손실 기대값을 추정하는 추정기(Estimator) $\hat{\gamma}^{(m)}$ 를 제안했습니다. 라우팅 규칙은 다음과 같이 정의됩니다:

$r(x)=arg⁡min⁡m∈[M][γ^(m)(x)+λ⋅c(m)](2)$

여기서 λ≥0\lambda \geq 0는 비용과 품질 간의 트레이드오프를 조절하는 하이퍼파라미터입니다. §4에서는 이 라우팅 규칙이 이론적으로 최적에 가까운 규칙임을 보여줍니다.

손실 추정기 γ^(m)(x)\hat{\gamma}^{(m)}(x)의 다양한 구성 방법

예를 들어, 학습 샘플 ${(x(i),y(i))}i=1N\{(x^{(i)}, y^{(i)})\}_{i=1}^{N}$ 이 주어졌을 때, K-최근접 이웃(K-NN) 방식으로 다음과 같이 정의할 수 있습니다:

$γ^(m)(x)=1K∑i∈NN(x)ℓ(x(i),y(i),h(m))(3)$

또는, 선형 모델(linear model)을 사용할 수도 있습니다:

γ^(m)(x)=wm⊤Φ(x)

여기서 Φ는 임베딩 모델(BERT, Sentence-T5 등)을 의미하며, $w_m \in \mathbb{R}^D$ 입니다.

손실 함수는 다음과 같은 평균 제곱 오차로 최소화합니다:

$\frac{1}{N} \sum_{i=1}^{N} \sum_{m \in [M]} \left( \ell(x^{(i)}, y^{(i)}, h^{(m)}) - \hat{\gamma}^{(m)}(x^{(i)}) \right)^2$

행렬 분해(Matrix Factorization)

Ong et al. (2024)는 다음과 같은 행렬 분해 방식을 제안하였습니다:

$\hat{\gamma}^{(m)}(x) = v_m^\top A (\Phi(x)) + b$

여기서 $\Phi: \mathcal{X} \to \mathbb{R}^D$ 는 고정된 텍스트 임베딩이며,
$v_m \in \mathbb{R}^{D'}, A∈RD′×DA \in \mathbb{R}^{D' \times D}$ 입니다.

이 방법은 쌍별 비교(pairwise comparisons)만을 기반으로 학습됩니다. 식 (4)와 비교할 때, 주요 차이점은:

입력 임베딩이 고정되어 있다는 점
임베딩 차원이 서로 다를 수 있다는 점 (D≠D′D \neq D')

3. 동적 LLM 풀을 활용한 모델 라우팅 (Model Routing with a Dynamic LLM Pool)

우리는 이제 LLM 풀의 구성이 동적으로 변화할 수 있는 상황에서의 모델 라우팅 문제를 정식화합니다. 이 문제는 관련 주제를 다룬 Tailor et al. (2024)의 수식을 참고하여 정의합니다. 해당 문제에 대해 Bayes-optimal(베이즈 최적) 솔루션을 분석함으로써, LLM 피처 표현을 활용하는 일반적인 프레임워크를 제시합니다.

3.1 문제 설정 (Problem Setup)

이전 수식 (1)에서는 고정된 LLM 풀을 가정한 모델 라우팅 문제를 정식화하였습니다. 따라서, 사후(post-hoc) 라우팅 방식들 (예: 수식 (3), (4))은 훈련 중에 관찰된 각 LLM에 대해 파라미터를 추정하는 방식에 의존합니다. 그러나 실제 환경에서는 새로운 모델이 릴리스되고, 이전 모델이 사용 중단되면서 LLM 풀은 자주 커지거나 줄어들 수 있습니다. 이러한 동적 설정으로 문제를 확장하기 위해, 우리는 Tailor et al. (2024)의 전문가 위임(learning to defer to an expert) 문제를 기반으로 공식을 따릅니다 (§5에서 관련 문제 논의).

구체적으로, $\mathcal{H}_{\text{all}}$ 은 사용 가능한 모든 LLM 예측기들의 집합을 나타내며, 편의상 $\mathcal{H}_{\text{all}}| < \infty$ 라 가정합니다. $\mathbb{H} \coloneqq 2^{\mathcal{H}_{\text{all}}}$ 는 모든 하위 집합들의 집합입니다. $\mathcal{H}_\text{tr} = \{ h^{(1)}, \dots, h^{(M)} \} \in \mathbb{H}$ 는 훈련 중 관찰된 M개의 LLM 예측기 집합입니다.

평가 중에는, 라우팅 대상이 될 LLM 집합 $\mathcal{H}_{\text{te}} = \{ h_{\text{te}}^{(1)}, \dots, h_{\text{te}}^{(N)} \} \subseteq \mathcal{H}_{\text{all}}$ 로부터 주어지며, 이는 훈련 시 사용된 $\mathcal{H}_{\text{tr}}$ 와 다를 수 있습니다. 극단적인 경우에는 $\mathcal{H}_{\text{tr}} \cap \mathcal{H}_{\text{te}} = \emptyset$ 일 수도 있습니다.

이러한 평가 중 동적 LLM 구성을 반영하기 위해, 우리는 라우터가 입력 x뿐만 아니라 후보 LLM 풀 $\mathcal{H}$ 도 함께 입력받도록 수정합니다. 따라서 라우터는 다음과 같은 동적 라우터 집합 R\mathcal{R}의 원소가 됩니다:

$\mathcal{R} = \{ r(\cdot, \mathcal{H}) : \mathcal{X} \to [|\mathcal{H}|] \mid \mathcal{H} \in \mathbb{H} \}$

또한, 평가 중 사용되는 LLM 풀은 훈련 LLM 풀 $\mathcal{H}_{\text{tr}}$ 에만 의존하지 않고, 어떤 분포 $\mathcal{S}$ 로부터 샘플링된다고 가정합니다. 즉, 우리는 훈련 시 관찰된 LLM에만 최적화된 라우터를 넘어서, 임의의 새로운 풀에서도 일반화되는 라우터를 설계하고자 합니다.

따라서 동적 LLM 라우팅 문제는 다음과 같이 요약될 수 있습니다:

$\min_{r \in \mathcal{R}} \mathbb{E}_{(x, y, \mathcal{H})} \left[ \sum_{m \in [|\mathcal{H}|]} \mathbb{1}(r(x, \mathcal{H}) = m) \cdot \ell(x, y, h^{(m)}) \right]$

단, 제약 조건으로:

$\mathbb{E}_{(x, y, \mathcal{H})} \left[ \sum_{m \in [|\mathcal{H}|]} \mathbb{1}(r(x, \mathcal{H}) = m) \cdot c(h^{(m)}) \right] \leq B$

여기서:

$B\in \mathbb{R}_+$ : 총 비용 예산
$\mathcal{H} = \{ h^{(1)}, \dots, h^{(M)} \} \sim \mathcal{S}$ : M개의 LLM 샘플
$\mathcal{H}_{\text{all}} \to \mathbb{R}_+$ : 각 LLM의 비용 함수

3.2 동적 풀에 대한 최적 라우팅 (Optimal Routing with a Dynamic Pool)

적절한 동적 라우터를 설계하기 위해, 우리는 Bayes-optimal 라우팅 규칙의 성질을 분석하는 것으로 시작합니다. 이 결과는 Tailor et al. (2024, Eq. 6)의 구조와 유사하며, 해당 식은 전문가 위임 문제에 대한 최적 규칙으로 유도된 것입니다. 또한, 이 식은 Jitkrittum et al. (2023)에서 도입된 테스트 손실 기반 기준의 일반화로 볼 수도 있습니다.

정리 1 (Optimal dynamic routing)

온건한 정규 조건 하에서, $\mathcal{H} \in \mathbb{H}$ , $x \in \mathcal{X}$ 에 대해, 최적 동적 라우터 $r^*(x, \mathcal{H})$ 는 다음과 같이 정의됩니다:

$r^*(x, \mathcal{H}) = \arg\min_{m \in [|\mathcal{H}|]} \left[ \mathbb{E}_{y \mid x} \left[ \ell(x, y, h^{(m)}) \right] + \lambda_{\mathcal{S}} \cdot c(h^{(m)}) \right]$

여기서 $\lambda_{\mathcal{S}} \geq 0$ 는 라그랑주 승수(Lagrange multiplier)입니다.

직관적으로, 이 라우팅 규칙은 입력 x에 대해 예측 손실 기대값이 가장 낮은 모델을 선택하되, 비용 c(h(m))c(h^{(m)})에 대한 가중 조정을 수행하는 방식입니다. 이 때 하이퍼파라미터 λS\lambda_{\mathcal{S}}는 품질(손실)과 비용 사이의 트레이드오프를 조절하며, 다음과 같은 의미를 가집니다:

$\lambda_{\mathcal{S}} = 0$ 일 경우 → 비용에 제한 없는 최적 성능 모델 선택
$\lambda_{\mathcal{S}} > 0$ 일 경우 → 손실과 비용을 동시에 고려하는 균형적 선택

다음은 이미지에 포함된 섹션 4. Correctness-Based LLM Representation 전체 내용에 대한 자세하고 정확한 한국어 번역입니다:

4. 정답률 기반 LLM 표현 (Correctness-Based LLM Representation)

우리는 이제 LLM을 소수의 레이블이 부착된 검증용 프롬프트에서의 정답률 벡터(correctness vector)를 통해 표현하는 방법을 제안합니다. 이는 자연스럽게 클러스터 기반 표현(cluster-based representation)으로 확장되며, 이후에 라벨이 없는 대규모 학습 데이터셋을 활용해 비지도 또는 지도 방식의 클러스터 할당으로 이어질 수 있습니다.

4.1 정답률 벡터 표현 (The Correctness Vector Representation)

LLM 표현을 위한 벡터 Ψ\Psi를 구성하기 위해, 우리는 좋은 표현이 만족해야 할 성질을 고려합니다. 직관적인 요구사항은, 유사한 LLM 쌍 (h, h')에 대해 $\Psi(h)^\top \Psi(h')$ 가 높고, 비유사한 쌍에 대해서는 낮아야 한다는 것입니다.

우리는 두 LLM이 유사하다는 것을 “대표 프롬프트 집합에 대해 유사한 성능을 보이는 경우”로 정의합니다. 이 접근은 Thrush et al. (2024), Zhuang et al. (2024) 등의 제안을 따릅니다. 구체적으로, 소규모의 레이블이 부착된 검증용 프롬프트 집합 $S_{\text{val}} = \{(x^{(i)}, y^{(i)})\}_{i=1}^{N_{\text{val}}}$ 이 있다고 가정합니다. 그리고 새로운 LLM $h_{\text{te}}^{(n)} \in \mathcal{H}_{\text{te}}$ 는 이 프롬프트 집합에 대해 예측할 수 있다고 가정합니다. 이때, 다음과 같은 벡터를 정의할 수 있습니다:

$\Psi(h_{\text{te}}^{(n)}) = \left[ \mathbb{1}(y^{(i)} = h_{\text{te}}^{(n)}(x^{(i)})) \right]_{i \in [N_{\text{val}}]} \in \{0, 1\}^{N_{\text{val}}}$

이것은 검증 프롬프트 각각에 대해 해당 LLM이 정답을 맞혔는지를 나타내며, 이를 정답률 벡터(correctness vector)라 부릅니다.

이 벡터를 만드는 데 사용되는 프롬프트 $S_{\text{val}}$ 의 선택은 매우 중요합니다. 이 프롬프트들은 도메인 지식으로 수작업 구성하거나, 벤치마크로부터 무작위로 샘플링할 수 있습니다. 프롬프트 수가 많지 않다면 새로운 LLM에 대해 이 벡터를 계산하는 비용도 크지 않으며, 이미 벤치마크 결과가 존재한다면 추가 실행 없이 재사용할 수도 있습니다.

그러나 $N_{\text{val}}$ 이 충분히 크면 오버피팅 가능성이 있습니다. 이를 완화하기 위해 우리는 $S_{\text{val}}$ 의 부분집합에 대한 집계 성능(aggregate performance)을 활용하는 변형을 제안합니다.

4.2 클러스터 기반 LLM 표현 (Cluster-Based LLM Representation)

이제 위 표현을 확장하여, 새 LLM $h_{\text{te}}^{(n)}$ 를 KK개의 사전 정의된 클러스터 기준으로 정답률 평균 벡터 $\hat{\Psi}(h_{\text{te}}^{(n)}) \in [0, 1]^K$ 로 나타내는 방법을 제안합니다. 이 벡터를 통해 다음과 같은 식으로 손실을 근사합니다:

$\hat{\gamma}(x, h_{\text{te}}^{(n)}) = z(x)^\top \hat{\Psi}(h_{\text{te}}^{(n)})$

여기서 $z(x) \in \{0, 1\}^K$ 는 프롬프트 xx가 속한 클러스터를 나타냅니다.

제안된 클러스터 기반 표현 방식 절차:

사전 학습된 임베딩기 $\Phi: \mathcal{X} \to \mathbb{R}^D$ 와 라벨이 없는 학습 세트 $\{x^{(i)}\}_{i=1}^N$ 을 이용하여 K-평균(K-means) 클러스터링 수행.
- 각 xx에 대해 클러스터 할당 $z(x) \in \{0, 1\}^K$ 을 획득.
검증 데이터 $(x, y) \in S_{\text{val}}$ 을 각 클러스터 $C_k$ 에 할당:

$C_k = \{(x, y) \in S_{\text{val}} : z_k(x) = 1\}$
LLM별 클러스터 정답률 벡터 계산:

$\hat{\Psi}_k(h_{\text{te}}^{(n)}) = \frac{1}{|C_k|} \sum_{(x,y) \in C_k} \mathbb{1}[y \neq h_{\text{te}}^{(n)}(x)]$

이 방법은 클러스터 단위의 평균 오차로 LLM의 성능을 간단히 요약합니다. 계산은 LLM으로부터의 예측만을 필요로 하며, 역전파가 필요 없습니다.

[그림 1 설명]

그림 1은 위 절차의 흐름을 보여줍니다:

비지도 데이터에 대해 K-means를 수행하여 K개의 클러스터 도출
검증 데이터를 클러스터에 할당
각 LLM의 클러스터별 오류를 계산해 벡터화
입력 쿼리 xx에 대해 해당 클러스터의 평균 손실 + 비용을 고려해 최적 LLM 선택

라우팅 규칙:

$\hat{r}(x, \mathcal{H}_{\text{te}}) = \arg\min_{n \in [N]} \left[ \hat{\gamma}_{\text{clust}}(x, h_{\text{te}}^{(n)}) + \lambda \cdot c(h_{\text{te}}^{(n)}) \right]$

$\hat{\gamma}_{\text{clust}}(x, h) = z(x)^\top \hat{\Psi}(h)$

특별 케이스:

K = 1인 경우, 클러스터가 하나뿐이므로 모든 쿼리에 대해 동일한 LLM이 선택됨: $\hat{r}(x, \mathcal{H}_{\text{te}}) = \arg\min_{n \in [N]} \left[ \hat{\Psi}(h_{\text{te}}^{(n)}) + \lambda \cdot c(h_{\text{te}}^{(n)}) \right]$

4.3 학습된 클러스터 할당 맵 (Learned Cluster Assignment Map)

클러스터링 대신 할당 함수 z(x;θ)z(x; \theta)를 학습할 수도 있습니다. 이때는 선형 모델을 기반으로 다음과 같이 정의합니다:

$\hat{z}_k(x; \theta) \propto \exp(\theta_k^\top \Phi(x))$

이를 이용해 각 LLM의 손실을 다음과 같이 근사합니다:

$\hat{\gamma}(x, h; \theta) = \hat{z}(x; \theta)^\top \hat{\Psi}(h)$

이때 라우팅 규칙은 다음과 같습니다:

$\hat{r}(x, \mathcal{H}_{\text{te}}) = \arg\min_{n \in [N]} \left[ \hat{\gamma}(x, h_{\text{te}}^{(n)}; \theta) + \lambda \cdot c(h_{\text{te}}^{(n)}) \right]$

학습 방식: 훈련 데이터 $S_{\text{tr}} = \{(x^{(i)}, y^{(i)})\}$ 에 대해, 다음 로그 손실을 최소화하도록 θ\theta를 학습합니다:

$-\sum_{(x, y) \in S_{\text{tr}}} \left[ \mathbb{1}[y \neq h(x)] \cdot \log \hat{\gamma}(x, h; \theta) + \mathbb{1}[y = h(x)] \cdot \log(1 - \hat{\gamma}(x, h; \theta)) \right]$

$\hat{\Psi}(h)$ 는 검증 집합에서 평가됩니다.

4.4 초과 위험 경계 (Excess Risk Bound)

우리는 클러스터 기반 라우팅이 이상적인 베이즈 최적 라우팅과 얼마나 차이가 있는지를 이론적으로 분석합니다.

데이터 분포 (x, y)가 KK개의 잠재 성분(latent components) 혼합으로 구성된다고 가정합니다:

$P(x, y) = \sum_{k=1}^K \pi_k P(x, y \mid z = k)$

클러스터 kk에 대해 LLM이 예측을 틀릴 확률은 다음과 같이 정의됩니다:

$\Psi_k(h_{\text{te}}^{(n)}) \coloneqq \mathbb{P}_{x, y \sim P(\cdot \mid z = k)} \left[ h_{\text{te}}^{(n)}(x) \neq y \right]$

이때, 이상적인 라우팅 규칙은 다음과 같습니다:

$r^*(x, \mathcal{H}_{\text{te}}) = \arg\min_{n \in [N]} \left[ \sum_{k \in [K]} \mathbb{P}(z = k \mid x) \cdot \Psi_k(h_{\text{te}}^{(n)}) + \lambda \cdot c(h_{\text{te}}^{(n)}) \right]$

정리 3 (Proposition 3):

$r^*$ 가 베이즈 최적 라우팅이라 할 때, 실제 라우팅 $\hat{r}$ 과의 0-1 손실 차이는 다음과 같은 식으로 상계됩니다:

$\mathbb{E}_{x \sim \mathcal{D}} [ R_{0/1}(\hat{r}) - R_{0/1}(r^*) ] \leq \mathbb{E}_{x} \left[ \max_{k} \Delta_k(x, h_{\text{te}}^{(n)}) \right]$

여기서 $\Delta_k(x, h) = |\mathbb{P}[y \neq h(x) \mid z = k] - \hat{\Psi}_k(h)|$ 입니다.

즉, 클러스터 기반 오류 추정이 실제 조건부 오류를 잘 근사할수록 라우팅 정확도도 높아진다는 이론적 결론을 제시합니다.

4.5 논의 및 기존 연구와의 관계 (Discussion and Relation to Existing Work)

우리의 제안은 Tailor et al. (2024), Thrush et al. (2024), Zhuang et al. (2024), Feng et al. (2024), Li (2025), Zhao et al. (2024) 등의 최근 연구 흐름과 관련이 있으며, 이 중 많은 연구들은 개별적인 공로로써 분석할 가치가 있습니다.

LLM을 정답률 벡터(correctness vector)로 표현하는 방식은 일부 기존 연구와 밀접하게 관련되어 있습니다. 예를 들어 Tailor et al. (2024)은 “소규모 컨텍스트 집합”에 대한 전문가들의 예측을 기반으로 시험 시점에 무작위로 선택된 전문가에게 위임하는 방법을 제안했습니다. 비록 동일한 문제 설정은 아니지만, 검증용 프롬프트 집합에서 LLM을 정답률 벡터로 표현한다는 아이디어 측면에서 유사합니다.

Thrush et al. (2024)은 사전 학습 데이터 선택에 사용하기 위해 LLM의 예측을 기반으로 벤치마크에서의 성능을 분석했습니다. 이는 우리의 제안과 유사하게, 후속 작업에 LLM을 사용하는 기반으로 성능을 활용한다는 점에서 유사합니다.

Zhuang et al. (2024)은 LLM 임베딩을 구성하는 일반적인 방법으로 행렬 분해(matrix factorization)를 활용하였고, 이는 Ong et al. (2024)의 아이디어에 기반합니다. 그러나 이 방법은 동적 LLM 설정에 맞춰 임베딩을 명시적으로 생성하거나 업데이트하지는 않으며, 전체 임베딩을 재계산하거나 점진적인 업데이트를 필요로 하지 않습니다.

최근 연구 중에는 LLM 풀 자체가 동적으로 변화하는 상황에서 라우팅 문제를 다룬 연구도 있습니다. 예컨대 Feng et al. (2024)은 그래프 신경망(GNN)을 기반으로 프롬프트와 작업(tasks) 간의 관계를 모델링하였습니다. Li (2025)는 모델 ID 벡터(model identity vector)를 정의하고, 벤치마크 성능 데이터를 기반으로 정규화된 손실 분포를 학습합니다. 이는 우리 방식(정답률 기반 벡터 또는 클러스터 기반 벡터)과 유사한 개념적 유사성을 가지지만, 표현 방식은 다릅니다.

Zhao et al. (2024)은 LoRA 방식으로 정의된 동적 LLM 풀을 고려하며, 훈련 샘플의 평균 임베딩을 활용한 표현 방식을 제안합니다. 이 경우에도 클러스터가 사전 정의된 라벨에 의존하지 않고 비지도 방식으로 학습됩니다. Chen et al. (2024)은 클러스터링을 사용하는데, 우리의 방식과는 달리 클러스터링은 LLM 임베딩을 생성하는 데 사용됩니다.

우리 방식은 K-NN 방식과 유사하지만, 차이점은 다음과 같습니다: K-NN은 질의 주변 이웃의 라벨을 기반으로 예측하는 반면, 우리는 클러스터에 기반한 예시 집합을 통해 오류를 추정합니다.

모델 라우팅 (Model Routing)

LLM의 추론 비용을 줄이기 위한 간단하면서 효과적인 방법으로 널리 연구됨.

대표 연구: Hendy et al. (2023), Hari and Thomson (2023)

라우터를 학습하는 방법:

메타 모델(meta-model) 방식
K-최근접 이웃(K-NN)
행렬 분해(matrix factorization)
그래프 기반 라우팅
전문가 라우팅(MoE)
클러스터링 및 앙상블 등

모델 캐스케이딩 (Model Cascading)

입력에 따라 다른 모델을 순차적으로 사용하는 방식으로, 비용과 품질 간의 트레이드오프를 제어함.

선택 또는 중단 판단을 확률 또는 메타 모델 기반으로 수행.

대표 연구: Stern et al. (2018), Chen et al. (2023a), Elhoushi et al. (2024)

선택적 분류 및 위임 학습 (Selective Classification and Learning to Defer)

모델이 예측을 수행할지 아니면 전문가에게 위임할지를 판단하는 방식.

학습 거부 (Chow 1970 등)
선택적 분류 (Geifman & El-Yaniv 2019 등)
위임 학습 (Madras et al. 2018 등)

모델 융합 (Model Fusion)

품질을 높이기 위한 목적의 라우팅 방법으로, 하나의 모델로 합치는 융합 방식 또는 여러 모델을 동시에 사용하는 방식이 있음.

대표 연구: Ravuut et al. (2022), Jiang et al. (2023), Guha et al. (2024)

전문가 혼합(MoE)

전통적으로 MoE는 독립된 모델 또는 하위 모듈을 위한 라우팅을 다룸.

대표 연구: Jacobs et al. (1991), Fedus et al. (2022)

조기 종료 (Early Exiting)

모델 내부에서 일정 레이어에서 추론을 중단하여 계산을 줄이는 방식.

대표 연구: Teerapittayanon et al. (2016), Zhou et al. (2020)

추측적 디코딩 (Speculative Decoding)

작은 모델로 먼저 결과를 생성하고, 큰 모델로 검증하는 방식.

대표 연구: Stern et al. (2018), Chen et al. (2023a), Cai et al. (2024), Li et al. (2024)

6 실험 (Experiments)

우리는 EmbedLLM, MixInstruct, RouterBench, Chatbot Arena에서 실험을 수행했습니다.

데이터 전처리

전체 112개의 LLM 중 2/3는 훈련용(𝓗_tr), 1/3은 테스트용(𝓗_te)으로 사용.
60/10/30 비율로 훈련, 검증, 테스트 분할.
EmbedLLM은 35개, MixInstruct/RouterBench는 각각 11개 사용.

평가지표

정확도(deferral curve): 평균 정확도와 비용 간 트레이드오프
QNC (Quality Neutral Cost): 최고 성능 모델과 동일한 정확도를 달성하는 데 드는 비용
정확도(Acc): 전체 비용 범위에서의 최대 정확도

라우팅 기법 비교

Clairvoyant 고정 풀 라우터: 모든 LLM을 관찰할 수 있는 이상적인 시나리오 (Oracle).
Pareto-random router: (식 10) 기준.
K-NN: 검증 집합에서 가장 가까운 K개 이웃을 기준으로 성능 추정.
K-means (Gecko): 우리 제안 방식, Gecko 임베딩으로 클러스터 구성.
K-means (Attributes): 사전 정의된 7가지 속성을 사용하여 클러스터 구성.
Learned cluster map: 클러스터 할당을 학습하는 방식 (§4.3)

하이퍼파라미터 튜닝

λ 값 조절을 통해 deferral curve 면적 최대화, QNC 최소화 등 평가.

결과 요약

K-means (Gecko) 방식이 대부분의 경우 최상의 품질-비용 균형.
K-means (Attributes)는 MixInstruct에서 다소 열세.
K-NN은 훈련 데이터에 대한 정보 사용 제약 때문에 성능 저조.
우리의 방법은 훈련된 LLM의 정답률 라벨 또는 비지도 클러스터링만으로도 강건한 성능 확보.

7 결론 (Conclusion)

우리는 라우터를 재학습하지 않고도, 시험 시점에서 관찰되지 않은 여러 LLM들 간의 라우팅을 수행하는 이론적인 전략을 제시했습니다. 핵심은 정답률 기반 LLM 표현 방식과 이에 기반한 클러스터 기반 라우팅 전략입니다.

제안한 방식은 계산 효율성이 높고, EmbedLLM에서 30개 이상의 미지 LLM을 다룬 실험에서 우수한 품질-비용 균형을 달성했습니다.

향후 방향으로는 쿼리 분포 변화에 대한 강건성 향상이 있으며, 이는 라우터 재학습의 필요성을 더욱 줄이는 데 도움이 될 것입니다.

하임

NLP 공부합니당

이전 포스트

Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance

다음 포스트

Universal Model Routing for Efficient LLM Inference

Routing

초록(Abstract)

1 서론(Introduction)

정리하면, 우리의 기여(contributions)는 다음과 같습니다:

정리된 기여 내용:

문제 정식화 (Problem Formulation)

평가: 전문가 위임(Evaluation: deferral curve)

Pareto 무작위 라우팅(Pareto-random routing)

모델 라우팅 전략(Model routing strategies)

손실 추정기 γ^(m)(x)\hat{\gamma}^{(m)}(x)의 다양한 구성 방법

행렬 분해(Matrix Factorization)

3. 동적 LLM 풀을 활용한 모델 라우팅 (Model Routing with a Dynamic LLM Pool)

3.1 문제 설정 (Problem Setup)

3.2 동적 풀에 대한 최적 라우팅 (Optimal Routing with a Dynamic Pool)

4. 정답률 기반 LLM 표현 (Correctness-Based LLM Representation)

4.1 정답률 벡터 표현 (The Correctness Vector Representation)

4.2 클러스터 기반 LLM 표현 (Cluster-Based LLM Representation)

[그림 1 설명]

4.3 학습된 클러스터 할당 맵 (Learned Cluster Assignment Map)

4.4 초과 위험 경계 (Excess Risk Bound)

4.5 논의 및 기존 연구와의 관계 (Discussion and Relation to Existing Work)

모델 라우팅 (Model Routing)

모델 캐스케이딩 (Model Cascading)

선택적 분류 및 위임 학습 (Selective Classification and Learning to Defer)

모델 융합 (Model Fusion)

전문가 혼합(MoE)

조기 종료 (Early Exiting)

추측적 디코딩 (Speculative Decoding)

6 실험 (Experiments)

데이터 전처리

평가지표

라우팅 기법 비교

하이퍼파라미터 튜닝

결과 요약

7 결론 (Conclusion)

Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance

Collaborative Decoding of Critical Tokens for Boosting Factuality of LLMs

0개의 댓글

Universal Model Routing for Efficient LLM Inference

Routing

초록(Abstract)

1 서론(Introduction)

정리하면, 우리의 기여(contributions)는 다음과 같습니다:

정리된 기여 내용:

문제 정식화 (Problem Formulation)

평가: 전문가 위임(Evaluation: deferral curve)

Pareto 무작위 라우팅(Pareto-random routing)

모델 라우팅 전략(Model routing strategies)

손실 추정기 γ^(m)(x)\hat{\gamma}^{(m)}(x)의 다양한 구성 방법

행렬 분해(Matrix Factorization)

3. 동적 LLM 풀을 활용한 모델 라우팅 (Model Routing with a Dynamic LLM Pool)

3.1 문제 설정 (Problem Setup)

3.2 동적 풀에 대한 최적 라우팅 (Optimal Routing with a Dynamic Pool)

4. 정답률 기반 LLM 표현 (Correctness-Based LLM Representation)

4.1 정답률 벡터 표현 (The Correctness Vector Representation)

4.2 클러스터 기반 LLM 표현 (Cluster-Based LLM Representation)

[그림 1 설명]

4.3 학습된 클러스터 할당 맵 (Learned Cluster Assignment Map)

4.4 초과 위험 경계 (Excess Risk Bound)

4.5 논의 및 기존 연구와의 관계 (Discussion and Relation to Existing Work)

5 관련 연구 (Related Work)

모델 라우팅 (Model Routing)

모델 캐스케이딩 (Model Cascading)

선택적 분류 및 위임 학습 (Selective Classification and Learning to Defer)

모델 융합 (Model Fusion)

전문가 혼합(MoE)

조기 종료 (Early Exiting)

추측적 디코딩 (Speculative Decoding)

6 실험 (Experiments)

데이터 전처리

평가지표

라우팅 기법 비교

하이퍼파라미터 튜닝

결과 요약

7 결론 (Conclusion)

Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance

Collaborative Decoding of Critical Tokens for Boosting Factuality of LLMs

0개의 댓글