Learning to Decode Collaboratively with Multiple Language Models

하임·2026년 1월 9일

Routing

목록 보기

22/44

2403.03870

📌 논문 요약: Learning to Decode Collaboratively with Multiple Language Models

1. 🔥 핵심 아이디어

서로 다른 LLM이 토큰 단위로 협업(decoding)할 수 있도록 만드는 프레임워크를 제안함.
기본(base) 모델은 작고 훈련 가능하며, 보조(assistant) 모델은 크고 고정되어 있음.
어떤 모델이 현재 토큰을 생성할지는 잠재 변수 Z_t로 모델링되며, 학습을 통해 자동으로 결정됨.
효율적이고 해석 가능한 협업이 가능해지고, 도메인 전문가 모델과 일반 모델의 조합도 유효함을 실험적으로 보임.

2. 🎯 목표

각 토큰에 대해 어느 모델이 생성할지를 자동으로 판단하는 메커니즘을 도입
크고 복잡한 모델 호출을 줄이면서도 성능을 향상시키는 협업 디코딩 구조 설계
모델 간 협업의 패턴을 학습을 통해 자동 유도 (사전 정의된 규칙 없음)

3. ⚙️ 방법론 구조

3.1. Latent Variable 모델링

각 토큰 X_t는 *잠재 변수 $Z_t \in \{0, 1\}$ 에 따라 선택된 모델이 생성:
- Z_t = 0: base model (작고 훈련 가능)
- Z_t = 1: assistant model (크고 고정)
공통 조건 분포: $P(X_t, Z_t \mid X_{<t}) = P(Z_t \mid X_{<t}) \cdot P_{Z_t}(X_t \mid X_{<t})$

3.2. 학습 방식: Marginal Likelihood 최적화

학습 중에는 각 Z_t를 모름 → marginal likelihood를 최대화: $P(X) = \prod_{t=1}^T \sum_{Z_t} P_\theta(Z_t \mid X_{<t}) \cdot P_{Z_t}(X_t \mid X_{<t})$
assistant model은 logit 또는 확률만 필요하며, gradient access 불필요

3.3. 라우팅 분류기 $P_\theta(Z_t \mid X_{<t})$

base model의 마지막 hidden state $h_t$ 기반으로 sigmoid classification: $P_\theta(Z_t = 1 \mid X_{<t}) = \sigma(\theta^T h_t)$
경량한 선형 분류기 하나만 추가됨 (파라미터 수 매우 적음)

3.4. 초기화 전략

초반에는 pseudo-label 생성으로 θ 초기화:
- assistant는 맞추고 base는 틀렸을 때 $Z_t = 1$
- Toolformer 스타일의 weak supervision 방식

3.5. 디코딩 전략

greedy decoding 기반:
1. $P_\theta(Z_t \mid X_{<t})$ 계산
2. 임계값 η\eta 초과하면 assistant 호출
3. 해당 모델에서 $X_t = \arg\max P_{Z_t}(X_t \mid X_{<t})$

4. 🧪 실험 결과

4.1. 실험 세팅

base: LLAMA-7B
assistants: LLAMA-70B, LLEMMA (수학), MEDITRON (의학)
데이터셋: Tülu v2, GSM8k, MATH, BioASQ

4.2. 성능 요약

Task	Base	Assistant	Co-LLM 성능
GSM8k	34.5	52.5	45.0
MATH	7.6	11.7	15.1
BioASQ 평균	33.0	35.5	36.5

Co-LLM이 도메인 전문가와 협업 시 성능 향상
일부 task에서는 LLAMA-70B finetuned보다 성능 우위
Toolformer 스타일, CD, PT보다 효율성과 성능 모두 우수

5. 🧠 질적 분석 (Qualitative Analysis)

Co-LLM은 “템플릿 생성 + 전문가 호출” 전략을 학습함
예시:
- base model이 수식 틀을 생성
- assistant가 복잡한 계산 결과 채움
deferral frequency ff를 조절하면 성능이 달라짐 (적절한 f에서 peak)

6. 💡 Co-LLM의 장점 요약

항목	설명
🎯 세밀한 협업	토큰 단위로 모델 분리 사용
🧩 Modular	다양한 assistant 조합 가능
💸 비용 절감	필요한 시점에만 LLM 호출
📊 해석 가능성	Z_t로 협업 패턴 시각화 가능
🛠 Tool-style 구조	LLM을 툴처럼 활용 (Toolformer 확장)

7. 🔁 관련 기법과 차별점

방법	차이점
Mixture of Experts	모든 expert에 gradient access 필요
Toolformer	고정된 위치에 tool 호출, 학습 중 변화 없음
Contrastive Decoding	모든 시점에서 두 모델 logit 필요
Proxy Tuning	세 개 모델 필요, 도메인 일치 시에만 효과적

→ Co-LLM은 보다 유연하고 해석 가능하며 비용 효율적임

8. 🔚 결론 및 향후 과제

Co-LLM은 범용적이고 확장 가능한 협업 디코딩 구조
향후:
- 둘 이상 assistant와 협업 구조 확장
- backtracking 가능 deferral 전략 개발 등

초록 (Abstract)

우리는 여러 대형 언어 모델(LLM)이 토큰 단위로 생성하는 과정을 교차하면서 협업할 수 있도록 학습시키는 방법을 제안한다. 우리는 다음 토큰을 생성할 모델을 결정하는 과정을 잠재 변수로 모델링한다. 우리의 잠재 변수 모델 하에서 훈련 집합의 주변 우도(marginal likelihood)를 최적화함으로써, 기본 LLM은 언제 스스로 생성할지, 언제 “보조(assistant)” 언어 모델에 토큰 생성을 위임할지를 자동으로 학습하게 된다(직접적인 지도 없이). 토큰 단위의 협업 디코딩은 각 모델의 전문성이 작업에 맞게 융합될 수 있도록 하며, 이는 특히 일반적인 기본 LLM이 도메인 전문가 모델을 호출하여 활용하는 교차 도메인 환경에서 유용하다. 본 논문에서는 명령 수행, 도메인 특화 질의응답 및 추론 작업에서 개별 모델을 사용하는 것보다 공동 시스템의 성능이 우수함을 보이며, 학습된 잠재 결정의 질적 분석을 통해 우리 방법으로 훈련된 모델들이 템플릿 채우기(template-filling)와 같은 여러 흥미로운 협업 패턴을 보인다는 것을 보여준다.

1. 서론 (Introduction)

여러 대형 언어 모델(LLM)의 생성을 디코딩 시에 결합하는 기법들은 더 빠른 디코딩 속도(Leviathan et al., 2023), 더 통제 가능한 생성(Liu et al., 2021; Yang and Klein, 2021), 보다 일관되고 덜 반복적인 텍스트(Li et al., 2023a)를 비롯하여, 같은 계열의 작은 모델과 그 생성물을 결합하여 대형 모델을 “튜닝(tuned)”할 수 있게 하는 효과( Liu et al., 2024) 등의 이점을 제공한다. 또한, 언어 모델에 외부 도구를 주입하여 생성 과정에 외부의 지식과 능력을 통합하려는 연구 흐름도 병행되고 있다(Mialon et al., 2023). 이와 같이, 외부 API(예: Schick et al., 2023; Qin et al., 2023; 기타), 검색 엔진이나 리트리버(Izacard et al., 2022; Asai et al., 2023; Nakano et al., 2021; 기타), 또는 코드 실행기(Gao et al., 2023; 기타)를 갖추었을 때 언어 모델이 보다 충실하고 정확한 생성을 할 수 있다.

그러나 이러한 방법들은 모두 여러 모델의 로짓(logits)을 결합하거나, 훈련 데이터 내에 도구(API) 호출 위치에 대한 (약한) 지도(supervision)를 삽입하는 등의 방식으로 모델을 어떻게 결합하고 언제 도구를 사용할지를 미리 정해놓아야 한다. 본 연구에서는 각 토큰을 생성할 때마다 모델들이 함께 토큰을 생성하도록 인터리브(interleaving)하는 전혀 다른 유형의 모델 결합 방식을 탐구한다. 즉, 각 토큰은 단 하나의 모델에 의해 생성되며, 모델들이 함께 하나의 토큰 시퀀스를 생성하도록 협업한다. 우리는 각 토큰을 생성할 모델을 결정하는 과정을 잠재 변수로 표현하는데, 이는 디코딩 시 어느 모델을 사용할지에 대한 직접적인 지도 없이 학습될 수 있다. 이러한 방식은 주어진 작업에 대해 효과적인 협업 패턴이 데이터로부터 유기적으로 학습될 수 있도록 한다.

그림 1은 우리 방법(Co-LLM)의 예시 생성을 보여준다. 상단 예시에서는 LLAMA-7B가 명령 수행 과제에서 기본 템플릿을 생성한 후, LLAMA-70B라는 더 큰 모델을 호출하여 목록의 각 항목에 대한 사실 정보를 채워 넣는다. 더 큰 모델을 보조 모델로 활용하면, 작은 모델은 더 큰 지식 기반을 효과적으로 사용할 수 있고 명령 응답에 대한 올바른 “스캐폴딩(scaffolding)”을 학습하는 데 집중할 수 있다. 하단 예시에서는 LLAMA-7B가 LLEMMA-34B(도메인 특화 수학 모델, Azerbayev et al., 2023)와 협업하여, 후자를 API 호출처럼 취급하며 LaTeX 수식의 일부를 채워 넣는다. 두 경우 모두, 모델은 어느 시점에 보조 모델을 호출할지 스스로 예측하는데, 이는 어느 문맥에서 보조 모델이 적합한지를 직접 지도 없이 훈련을 통해 학습하게 함으로써 가능해진다. 이로 인해 작업의 요구에 따라 템플릿 채우기, API 호출 등 질적으로 서로 다른 협업 방법이 자연스럽게 나타난다.

논문의 2장에서 디코딩 시 협업을 위한 잠재 변수 모델을 설명하고, 3장에서 이 모델 하에서 Co-LLM의 훈련 및 디코딩 절차를 기술한다. 4장에서는 명령 수행, 수학적 추론, 도메인 특화 질의응답 작업에 대한 Co-LLM의 성능을 평가한다. 우리의 결과는 모델 협업을 학습시키는 것이 개별 모델을 사용할 때보다 모든 작업에서 성능을 향상시키며, 때로는 대형 모델을 미세조정(fine-tuning)하는 것과 동일하거나 그 이상의 성능을 달성함을 보여준다. 또한, chain-of-thought reasoning(Wei et al., 2022)을 사용함으로써 Co-LLM은 분류 작업에도 적용될 수 있으며, 우리의 실험은 개선된 추론 능력을 통해 성능이 향상됨을 시사한다. 우리의 결과는 특히 일반 도메인의 기본 LLM이 도메인 전문가 모델을 호출하도록 학습하는 교차 도메인 환경에서 Co-LLM이 매우 유용하며, Co-LLM은 Mixture of Experts 모델(Shazeer et al., 2017)과 같은 다른 앙상블 모델과 효과적으로 결합될 수 있음을 보여준다.

📘 2. 협업 생성을 위한 잠재 변수 프레임워크

서로 다른 전문성과 크기를 가진 LLM(대형 언어 모델) 집합이 주어졌을 때, 우리는 이들이 비용 효율적으로 협업할 수 있는 잠재 변수 기반 프레임워크를 제안한다. 이 프레임워크는 조정 가능한 base model(기본 모델)을 중심으로 구성되며, 이는 비교적 작은 LLM이다. base model은 각 토큰에 대해 어떤 assistant model(보조 모델)(일반적으로 더 크거나 더 특화된 모델들)을 사용할지 결정한다. base model이 assistant에게 다음 토큰 생성을 맡기는 경우, 우리는 이를 토큰 생성을 위임한다(defers generation)고 표현한다.

토큰 시퀀스 $(X_1, ..., X_T)$ 생성할 때, 각 토큰 $X_t$ 의 생성 모델을 이산 잠재 변수 $Z_t \in \{0, 1, ..., M\}$ 로 표현한다. 여기서 i=0은 base model을, $i \in \{1, ..., M\}$ 은 M개의 assistant 중 i번째 모델을 나타낸다. 각 assistant model $i \in \{1, ..., M\}$ 의 조건부 분포 $P_i(X_t \mid X_{<t})$ 와 base model에 대한 완전한 접근이 가능하다고 가정한다. 이러한 분포를 활용해 다음과 같은 시퀀스 수준의 joint likelihood를 표현할 수 있다:

$P(X, Z) = \prod_{t=1}^T \left( P(Z_t \mid X_{<t}) \cdot P_{Z_t}(X_t \mid X_{<t}) \right)$

여기서 학습된 범주형 분포 $P_\theta$ 는 토큰 수준의 결정 분포 $Z_t$ 를 모델링한다. 우리의 설계에서 $X_t$ 가 주어졌을 때 $Z_t$ 는 조건부로 독립적이며, 잠재 변수 $Z_t$ 는 Mozannar and Sontag (2020)과 Mixture-of-Experts 모델(Jordan and Jacobs, 1994; Saunders et al., 2019)의 선택 변수와 유사하다.

🟦 비지도 학습 (Unsupervised Learning)

실제로는 토큰 수준의 결정 $Z_t$ 가 알려져 있지 않으며, 이를 수집하기도 어렵다. 본 잠재 변수 프레임워크는 비지도 학습 방식으로 이 문제를 자연스럽게 해결한다. 구체적으로, 다음과 같은 주변 우도를 최대화하는 것을 목표로 한다:

$P(X) = \prod_{t=1}^T \left( \sum_{i=1}^M P_i(X_t \mid X_{<t}) \cdot P_\theta(Z_t = i \mid X_{<t}) \right)$

이 수식은 훈련 시 효율적으로 계산할 수 있으며, 조건부 독립 구조를 통해 학습된다.

🟦 협업 디코딩 (Collaborative Decoding)

추론(inference) 시에는 각 토큰 $X_t$ 에 대해 어떤 모델 i가 해당 토큰을 생성할지 결정하여 최적의 시퀀스를 생성하는 것이 목표다. 이를 위해 다음을 계산한다:

$\hat{X}, \hat{Z} = \arg\max_{X, Z} P(X, Z)$

하지만 식 (3)은 계산이 매우 복잡하므로, $Z_t$ 와 $X_t$ 를 토큰 단위로 순차적으로 디코딩하는 일반적인 greedy 전략을 사용한다(예시는 Figure 2 참고). greedy 디코딩에서는 매 토큰 위치 t마다 다음의 $\hat{Z}_t$ 를 선택한다:

$\hat{Z}t = \arg\max_i P\theta(Z_t = i \mid X_{<t})$

그리고 선택된 모델 $\hat{Z}_t$ 로부터 토큰 $\hat{X}_t$ 를 생성한다:

$\hat{X}t = \arg\max{x} P_{\hat{Z}t}(X_t = x \mid X{<t})$

이는 단일 모델이 각 토큰을 생성하는 greedy 방식이다.

또 다른 대안으로, 식 (2)의 주변 우도를 직접 활용하는 다음과 같은 soft한 방식이 있다:

$\hat{X}t = \arg\max{x} \sum_{Z_t} P_i(X_t = x \mid X_{<t}) \cdot P_\theta(Z_t = i \mid X_{<t})$

이는 식 (2)와 밀접하게 일치하며, 각 토큰마다 모든 모델을 호출해야 하므로 느리지만 이론적으로 더 정확하다.

📘 3. Co-LLM: 여러 LLM의 협업적 디코딩 학습

이 섹션에서는 단 하나의 base model과 하나의 assistant model만 사용하는 경우를 중심으로 설명한다. 이 설정에서 base model은 각 위치 t에서 다음 중 하나를 이진으로 선택한다:

스스로 생성할지 (i=0)
assistant에게 위임할지 (i=1)

이진 선택이므로 $Z_t \in \{0, 1\}$ 이다. base model과 assistant model의 조건부 분포 $P_{\text{base}}$ 와 $P_{\text{asst}}$ 는 알려져 있다고 가정하며, 학습 대상은 모델 선택 분포 $P_\theta$ 뿐이다.

3.1 모델링: $P_\theta(Z_t \mid X_{<t})$

우리는 base model의 hidden state를 완전히 활용할 수 있으므로, 효율성과 단순함을 위해 base model의 마지막 히든 상태 $h_t(X_{<t}) \in \mathbb{R}^dht(X<t)∈Rd$ 를 기반으로 선형 분류기를 적용한다.

$P_\theta(Z_t = 1 \mid X_{<t}) = \sigma(\theta^\top h_t(X_{<t}))$

여기서 $\theta \in \mathbb{R}^d$ 는 학습 가능한 가중치 벡터이고 $\sigma$ 는 시그모이드 함수다. 이 분류기는 base model의 마지막 hidden state만을 사용하여 assistant 호출 여부를 판단한다.

3.2 학습: 주변 우도 기반 최적화

우리의 학습 목표는 다음의 음의 log 주변 우도를 최소화하는 것이다:

$-\sum_{t=1}^T \log \left[ P_{\text{base}}(X_t \mid X_{<t}) \cdot P_\theta(Z_t = 0 \mid X_{<t}) + P_{\text{asst}}(X_t \mid X_{<t}) \cdot P_\theta(Z_t = 1 \mid X_{<t}) \right]$

이 목적식은 주변화된 $Z_t$ 를 고려하며, base/assistant 모델은 고정된 분포로 사용되고 분류기 θ만이 학습된다.

📘 3.2 학습

🟦 초기화 방법 (Initialization of Z)

우리의 실험에서는, 보조 모델이 높은 품질의 출력을 생성하는 위치에서 base LLM이 빠르게 위임(decision defer)하도록 학습하는 것이 협업 디코딩을 촉진하는 데 도움이 된다는 것을 발견했다. 우리는 $Z_t$ 에 대해 직접적인 지도를 제공하는 대신, 약한 지도(weak supervision)를 사용하여 초기 $Z_t$ 값을 설정하고, 이를 pseudo-label로 사용하여 파라미터 θ를 초기화한다. 이후 학습 과정에서 θ는 자유롭게 업데이트된다.

직관적으로, 보조 모델이 토큰 $X_t$ 를 base보다 더 정확하게 예측한다면, 해당 위치의 $Z_t = 1$ 이 더 타당하다. 이에 따라 우리는 다음과 같이 pseudo-label을 설정한다:

$\hat{Z}_t := \mathbb{1} \left[ X_t = \arg\max_{x \in \mathcal{V}} P_{\text{asst}}(x \mid X_{<t}) \wedge X_t \neq \arg\max_{x \in \mathcal{V}} P_{\text{base}}(x \mid X_{<t}) \right]$

이후, base 모델 손실을 고정한 채 $\log P_\theta(Z_t \mid X_{<t})$ 를 최대화하는 방식으로 θ를 초기화한다.

실험에서는 이 초기화 방식을 일반적인 언어 모델 손실과 결합한 방식보다 marginal likelihood 손실만 사용하는 쪽이 더 나은 성능을 보였다. 이로써, 모델이 ZtZ_tZt 값을 보다 잘 학습할 수 있게 되었다 (5.2절 결과 참고).

📘 3.3 디코딩

우리는 실험에서 토큰 단위 디코딩 시점에서 $Z_t$ 를 예측하고, 해당 모델만을 사용하여 디코딩하는 greedy decoding 방식을 사용한다.

구체적으로는 다음과 같이 작동한다:

base model의 히든 상태 $h_t$ 를 입력으로 받아 $P_\theta(Z_t = 1 \mid X_{<t})$ 계산
이 확률이 사전에 설정된 임계값 $\eta$ 보다 클 경우:
- $Z_t = 1$ → assistant model 사용
- 그렇지 않으면 $Z_t = 0$ → base model 사용

이러한 방식은 추론 효율을 위해 inference time complexity를 줄이기 위한 방식으로, 모든 모델을 호출하지 않고 해당 모델 하나만 호출하는 구조다.

📘 4. 실험 결과 (Experimental Setup)

우리는 여러 task에 대해 모델을 fine-tuning한 후, 동일한 도메인(in-domain)과 교차 도메인(cross-domain) 환경에서 평가를 수행했다.

Co-LLM의 효과는 다양한 도메인 간 협업, 전문 모델과 일반 모델의 결합이라는 구조에서 잘 드러났으며, 협업을 학습함으로써 기존 단일 모델보다 더 우수한 성능을 달성했다.

📌 4.1 모델 구성 (Models Used)

대부분의 실험에서는 특정 도메인에 특화된 expert 모델과 일반 base 모델을 결합
예:
- LLAMA-7B (base) + LLAMA-70B (large, fine-tuned for reasoning)
- LLAMA-7B + MEDITRON (biomedical fine-tuned)
- LLAMA-7B + LLEMMA-34B (수학 특화)
base 모델은 LoRA (Dettmers et al., 2023)를 통해 fine-tuning되며, assistant 모델은 고정됨

📌 4.2 데이터셋 (Datasets)

총 4개의 데이터셋을 사용:

Tülu v2 (Wang et al., 2023b) – 명령 수행
GSM8K (Cobbe et al., 2021) – 수학 계산
MATH (Hendrycks et al., 2021) – 수학 문제 해결 (문제 수준별 샘플 750개)
BioASQ (Tsatsaronis et al., 2015) – 바이오 의학 QA (정확성, F1, ROUGE 등 측정)

모든 실험은 일관된 평가 코드를 기반으로 수행됨 (예: MEDITRON, Azerbayev 등 사용)

📌 4.3 비교 실험 및 베이스라인 (Baselines)

다음의 비교 모델들을 통해 Co-LLM의 필요성을 검증함:

🟠 Ablated Co-LLM

단순한 모델 선택기와 비교:
1. Co-LLM-Random: $Z_t \sim \text{Bernoulli}(0.5)$ 로 랜덤 호출
2. Co-LLM-Greedy: 두 모델 모두 호출 → logit 확률이 더 높은 모델 선택

Co-LLM은 이들보다도 더 낮은 호출 횟수로 더 높은 성능을 기록함.

🟠 Weakly-supervised Co-LLM

ToolFormer 방식에서 영감을 얻음
첫 단계: pseudo-label 기반 $Z_t$ 예측기 훈련
두 번째 단계: base 모델만 언어 모델링 손실 기반으로 훈련

→ 이런 2단계 구조로도 Co-LLM의 협업 구조를 흉내낼 수 있으나, full marginal likelihood 학습보다 성능이 낮음

📘 5. 결과 (Results)

5.1 도메인 협업 (Collaboration across domains)

표 1은 Co-LLM이 LLAMA와 도메인 특화 모델들 간의 협업을 가능하게 하며, 이 협업이 개별 모델들보다 더 나은 성능을 낸다는 것을 보여준다. 예를 들어, 수학 및 추론 작업에서 7B 크기의 LLEMMA 보조 모델을 호출하는 경우, 다음과 같은 성능을 보였다:

MATH 데이터셋에서는 Co-LLM + LLEMMA-7B → 17.2 vs. fine-tuned LLAMA-70B → 11.7 vs. LLEMMA-34B 단독 → 6.3
MEDiTRON과의 협업은 BioASQ의 일부 하위 작업에서 성능 향상을 보여주었으며, fine-tuned LLAMA-70B + base MEDiTRON-70B 보다 Co-LLM + LLAMA-7B + MEDiTRON-70B 조합이 더 좋은 성능을 보였다.
LLAMA-7B + LLEMMA-34B 조합도 fine-tuned LLAMA-70B 수준(43.5)과 유사한 63.6, 23.5 점을 달성.

➡️ 요약: Co-LLM은 특화된 expert 모델에 접근할 수 없는 상황에서 일반 모델과의 협업을 통해 성능을 끌어올릴 수 있다.

➡️ Fine-tuning된 모델을 사용하는 것보다, 협업하는 방식이 더 효율적일 수 있다.

5.2 크기 스케일 협업 (Collaboration across scales)

표 2는 Co-LLM이 서로 다른 크기의 모델 간에도 성공적인 협업을 가능하게 한다는 것을 보여준다.

LLAMA-7B + 70B → 크기 차이에도 불구하고 상당한 향상 달성
모든 작업에서 단일 모델보다 우수한 성능을 보였고:
- 평균적으로 2.6, 10.5, 7.5, 3.3 포인트 향상됨

💡 Co-LLM은 때로는 LoRA를 사용한 fine-tuned 모델보다도 좋은 성능을 보였다.

5.3 다양한 모델 아키텍처 간 협업

Co-LLM은 조건부 확률 분포만 접근할 수 있다면 서로 다른 아키텍처의 모델들도 결합 가능하다.

표 3에서:

Dense 모델(MISTRAL-7B) + Sparse MoE 모델(MIXTRAL-8x7B)의 결합 성능을 보여주며,
Co-LLM은 MIXTRAL-8x7B 단독 또는 fine-tuned MISTRAL-7B보다 좋은 정확도를 달성

5.4 질적 분석 (Qualitative Analysis)

잠재 변수 를 시각화하면 협업 방식이 이해 가능함:
Figure 1, 2 예시:
- Co-LLM이 템플릿을 base 모델이 생성하고, 빈 칸을 assistant가 채움
- 문제 풀이 작업에서는 복잡한 계산이 필요한 위치에서만 보조 모델을 호출

➡️ 다양한 스타일(API 호출, 지식 삽입 등)을 학습하며,

➡️ 추론 시점에 얼마나 많은 assistant 호출이 필요한지도 조절 가능 (Figure 4 참조)

📌 도구 조합 학습 (Learning to Compose Models)

기존 연구들은 다양한 방식으로 expert 모델을 조합:

Mixture of Experts (MoE):
- 모든 expert가 동시에 학습됨
- 파라미터 크기가 동일하고 training data 공유
Toolformer:
- API 호출 위치를 사전 정의
- fixed pattern
Proxy Tuning:
- 항상 assistant 모델을 호출하거나 병렬 평가
- 너무 많이 호출함 → 비용 상승

➡️ Co-LLM은 학습을 통해 필요한 위치에만 보조 모델 호출

📌 Prediction with Rejection 관련

Co-LLM은 거절 기반 예측(rejection-based prediction) 연구와 관련 있음:

*"모델이 자신이 확신 없을 때 pass하거나, 다른 expert에게 넘기도록 학습"**하는 구조
우리는 이를 sequence-level이 아니라 token-level로 확장
Mozannar and Sontag (2020) 기반의 구조에서 착안함

📘 7. 결론 (Conclusion)

우리는 Co-LLM을 제안하였다:

다양한 LLM이 토큰 단위로 협업적으로 생성할 수 있도록 해주는 잠재 변수 기반 모델
base 모델은 적절한 시점에 보조 모델에게 토큰 생성을 위임하도록 학습됨
다양한 협업 스타일을 자동으로 학습 가능
- 예: 지식 채움, 수학 문제 풀이, instruction 처리 등

📌 Co-LLM의 주요 장점:

성능 향상과 비용 절감의 균형
다양한 도메인 및 모델 간 유연한 통합 가능
후속 연구로는 더욱 긴 context, multi-assistant 환경에서도 확장 가능성 존재

하임

NLP 공부합니당

이전 포스트

ROUTERRETRIEVER: Routing over a Mixture of Expert Embedding Models

다음 포스트