https://arxiv.org/pdf/2311.08692
간단 요약
이 논문은 "ZOOTER"라는 대규모 언어 모델(LLM)들의 효율적인 집합 방식을 제안하고 있습니다. ZOOTER는 주어진 입력 쿼리를 가장 적합한 LLM에 전달하여 컴퓨팅 효율을 극대화하려는 방법론입니다. 전통적인 모델 앙상블 방식에서는 여러 LLM이 각각의 출력을 생성하고 이를 평가하여 최적의 답변을 선택하는 방식으로 많은 계산 자원이 필요했습니다. 반면, ZOOTER는 보상 모델(reward model)을 이용해 쿼리를 가장 적절한 전문가 모델로 라우팅(routing)하는 방식을 사용하여 효율을 높였습니다.
ZOOTER는 보상 모델에서 얻은 정보로 모델의 전문성을 학습하고, 이를 바탕으로 쿼리를 해당 전문가 모델에 효율적으로 라우팅하는 시스템입니다. 구체적인 방법은 다음과 같습니다.
ZOOTER는 여러 LLM들의 앙상블보다 더 적은 계산 자원으로 높은 성능을 달성하였습니다. 다양한 벤치마크(AlpacaEval, FLASK, MT-Bench 등)에서 단일 모델 및 기존의 보상 모델 순위 방식과 비교하여 더 높은 성능을 보여주었습니다.
이 논문은 LLM 앙상블의 잠재력을 재평가하고, 보상 모델로부터 학습한 정보를 통해 효율적인 라우팅 시스템을 구축함으로써 계산 비용을 절감하는 데 성공했습니다.
대형 언어 모델(LLM)의 상호보완적 잠재력은 다양한 도메인과 작업에서 이종적 전문성을 보유한 기성(off-the-shelf) LLM이 앙상블을 통해 일관되게 더 나은 성능을 달성할 수 있다는 가정을 기반으로 합니다. 기존의 LLM 앙상블 방법은 출력의 보상 모델을 기반으로 순위를 매기며, 이는 상당한 계산 비용을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 LLM의 상호보완적 잠재력을 재조명하고, 기성 보상 모델을 활용하여 잠재적 전문성을 발굴하는 방식을 제안합니다.
ZOOTER는 보상에 기반한 라우팅 방법으로, 학습 질의에 대한 보상을 추출하여 라우팅 함수를 학습하고, 각 질의를 해당 전문성을 가진 LLM에 정확히 분배합니다. 또한, 보상을 은(銀) 감독으로 사용할 때 발생할 수 있는 불확실성에서 비롯되는 노이즈를 줄이기 위해 태그 기반 레이블 강화(tag-based label enhancement)를 통합합니다. ZOOTER는 보상 모델 순위 매김 방식과 비교했을 때 소량의 라우팅 함수 계산만 추가적으로 요구하여 추론에서 계산 효율성을 보입니다.
우리는 ZOOTER를 다양한 도메인과 작업에서 26개의 하위 집합으로 구성된 포괄적인 벤치마크 컬렉션에서 평가했습니다. ZOOTER는 평균적으로 단일 최고 성능 모델을 능가하며, 작업의 44%에서 1위를 차지하며, 다수의 보상 모델 순위 매김 방식을 초과 성능을 보였습니다.
인간의 선호도에 맞춰 조정된 대형 언어 모델(LLM)은 급속히 등장하고 있으며, 매일 새로운 모델이 발표되고 있습니다(Touvron et al., 2023a,b; Anil et al., 2023; Bai et al., 2023). 이러한 기성 LLM은 다목적 작업 해결을 위해 추가로 미세 조정되거나 인간의 선호도에 맞게 조정됩니다(Xu et al., 2023; Touvron et al., 2023b,a). 이들은 일반 작업(generalists) 또는 특정 작업(specialists)으로서의 역할을 수행합니다(Yuan et al., 2023a; Luo et al., 2023a,b; Roziere et al., 2023).
LLM은 다양한 데이터로 사전 학습(pretrained) 및 조정(aligned)되었기 때문에 다목적 하위 작업에서 서로 다른 강점과 약점을 보입니다(Jiang et al., 2023). 따라서, LLM 앙상블은 이러한 상호보완적 잠재력을 활용하여 단일 최고 성능 모델보다 더 나은 성능을 달성할 수 있습니다.
LLM 앙상블의 주요 과제 중 하나는 기존 LLM의 대규모 매개변수로 인해 발생하는 계산 효율성 문제입니다. 이전 연구(Jiang et al., 2023; Shnitzer et al., 2023)는 LLM의 출력 결과를 병합하여 앙상블을 구현하는 강력한 방법을 제공했으나, 이는 막대한 추론 비용을 초래하여 저자원(low-resource) 환경에서는 경쟁력이 낮습니다.
우리는 기성 LLM이 "일반 작업(generalists)"으로 조정되었더라도 다양한 도메인과 주제에서 이종적 전문성을 보유하고 있다는 간단하지만 아직 충분히 연구되지 않은 가정을 보다 깊이 탐구합니다. 이 가정이 강력히 성립된다면, 기성 LLM을 효율적으로 조합하여 추가적인 추론 비용 없이 해당 전문성을 보유한 모델에 질의를 할당할 수 있습니다. 이러한 효율적인 라우팅 전략은 각 질의에 대해 단일 모델만 추론하는 비용과 라우팅 함수의 비교적 적은 오버헤드만 요구합니다. 그러나 기성 LLM의 세부적인 전문성을 조사하고 라우팅 학습을 위한 감독 데이터를 생성하는 것은 주석 작업이 필요하여 어려움을 수반합니다.
ZOOTER 제안
이 문제를 해결하기 위해 우리는 ZOOTER를 제안합니다. ZOOTER는 효율적인 기성 LLM 조합을 위해 보상에 기반한 질의 라우팅 방법입니다. ZOOTER는 보상 모델(RM)에서 은 감독 데이터를 얻고 강화하여 라우터 학습에 활용하고, 질의를 사전에 적합한 "전문성"으로 분배합니다.
핵심 기여
명령어 조정 및 정렬 (Instruction Tuning and Alignment)
명령어 조정(Instruction tuning)은 LLM이 다양한 명령어를 따르도록 돕는 기술로, 인간의 선호도에 LLM을 맞추기 위해 널리 활용되고 있습니다(Longpre et al., 2023; Chiang et al., 2023; Xu et al., 2023; Bai et al., 2023). 본 연구에서는 Llama-2-Chat(Touvron et al., 2023b), WizardLM(Xu et al., 2023), Vicuna(Chiang et al., 2023) 등 정렬된 LLM을 조합하는 데 중점을 두며, 이를 다양한 정렬 평가 작업에서 평가합니다.
대형 언어 모델 앙상블 (Large Language Model Ensemble)
LLM 앙상블은 오픈소스 LLM의 폭발적인 증가로 인해 떠오르는 주제입니다. LLM 앙상블은 기성 LLM을 통합하여 다양한 다운스트림 작업에서 일관되게 더 나은 성능을 달성하는 것을 목표로 합니다. 몇몇 연구에서는 LLM의 상호보완적 잠재력 가정을 탐구하고 이를 활용한 LLM 조합 방법을 제시합니다. 예를 들어:
이 연구들은 모두 보상 순위 매기기 또는 라우팅 전략을 활용해 LLM을 조합하는 데 중점을 두지만, ZOOTER는 두 가지 측면에서 이러한 동시 연구들과 차별화됩니다.
ZOOTER는 데이터와 계산의 효율성 측면에서 두각을 나타내며, 더 다양한 정렬 작업에서 평가되어 LLM의 상호보완적 잠재력을 포괄적으로 검증합니다.
보상 모델 기반 생성 (Reward Model Guided Generation)
LLM에서 보상 모델은 강화 학습(Schulman et al., 2017; Ouyang et al., 2022) 또는 선호 학습(Yuan et al., 2023b; Rafailov et al., 2023; Song et al., 2023)을 통해 정렬 성능을 개선하는 데 일반적으로 사용됩니다. 또한, 보상 모델은 생성 단계 동안 성능을 향상시킬 수도 있습니다.
이러한 성공적인 보상 모델 활용 사례에 영감을 받아, ZOOTER는 기성 보상 모델을 활용해 LLM의 잠재적 전문성을 조사합니다.
우리는 먼저 LLM의 상호보완적 잠재력을 재검토합니다(§3.1). 이후 ZOOTER를 효율적인 LLM 앙상블 방법으로 소개합니다(§3.2).
이 섹션에서는 기성 LLM이 다양한 도메인과 주제에서 이종적 전문성을 보유하고 있다는 가정에 대한 기본 개념을 설명합니다. 또한, 두 가지 LLM 앙상블 전략인 보상 모델 순위 매기기(Reward Model Ranking, RMR)와 질의 라우팅(Query Routing)을 간단히 소개합니다.
상호보완적 잠재력 가정 (Complementary Potential Assumption)
LLM 집합 와 다운스트림 질의 집합 가 주어졌을 때, MM에 속한 각 에 대해 가 에서 다른 모든 LLM보다 일관되게 더 나은 성능을 낼 수 있는 비공집합(non-empty subset)이 존재한다고 가정합니다. 이는 다음과 같은 관계를 만족합니다:
여기서 P는 성능을 평가하기 위한 임의의 선호도(preference) 또는 지표(metric)를 나타냅니다. 본 연구에서는 이러한 가정을 더욱 강화하여 LLM 간의 상호보완성이 서로 다른 도메인 및 작업에서의 전문성을 드러낸다는 것을 보이고, 이를 통해 질의를 분류하고 각 범주에 최적의 LLM을 선택할 수 있음을 목표로 합니다.
보상 모델 순위 매기기 (Reward Model Ranking)
RMR은 LLM의 상호보완적 잠재력을 활용하여 앙상블 성능을 극대화하는 방법입니다. RMR은 보상 함수 를 사용하여 각 질의에 대해 최적의 모델을 선택하도록 추정합니다(Jiang et al., 2023). 그러나 RMR은 모든 후보 모델에서 출력을 생성한 후 이를 순위 매기는 방식이므로 상당한 계산 비용을 초래합니다.
질의 라우팅 (Query Routing)
질의 라우팅은 기존 RMR 방법에 비해 효율성 문제를 완화합니다. 일반적으로 질의 라우팅은 다음과 같은 라우팅 함수 를 찾으려고 합니다:
라우팅 함수는 출력 생성 없이 질의를 기반으로 질의를 분배합니다. LLM의 상호보완적 잠재력이 성립한다면, 라우팅 함수는 질의 가 특정 LLM의 전문성 집합 에 속할 확률을 예측합니다.
ZOOTER는 효율적인 LLM 앙상블을 위해 보상에 기반한 질의 라우팅 방법입니다. ZOOTER는 보상 모델 순위 매기기를 학습하여 각 모델의 잠재적 전문성을 해석합니다.
ZOOTER 구조 및 작동 방식
ZOOTER는 다음과 같은 과정을 통해 작동합니다(그림 2 참조):

ZOOTER는 라우팅 함수의 소량 계산 오버헤드만 추가적으로 요구하며, 단일 LLM만 추론하기 때문에 계산 효율성이 뛰어납니다.
핵심 구성 요소
보상 증류 (Reward Distillation):
질의 라우팅은 질의 q가 특정 LLM의 전문성 집합 Q_m에 속할 확률을 예측하는 라우팅 함수 Z를 학습하는 것을 목표로 합니다. 이를 위해 정규화된 보상을 사용하여 다음과 같이 라우팅 함수를 정의합니다:
태그 기반 레이블 강화 (Tag-based Label Enhancement):
보상 증류 과정에서 보상 모델의 불확실성으로 인해 잡음이 발생할 수 있습니다(Gleave and Irving, 2022). 이를 완화하기 위해 질의에 태그를 부여하고, 태그별 보상(tag-wise rewards)을 다음과 같이 계산합니다:
이러한 설계를 통해 ZOOTER는 LLM 앙상블의 효율성을 높이고, 보다 다양한 작업에서 전문성을 효과적으로 활용할 수 있습니다.
이 섹션에서는 실험 설정(§4.1), 주요 결과(§4.2), ZOOTER 분석(§4.3)을 보고합니다.
후보 LLMs
질의 라우팅을 위해 동일한 13B 크기의 LLAMA 기반 LLM 6개를 선택했습니다.
(a) WizardLM: EVOLINSTRUCT로 확장된 질의 및 응답으로 정렬된 모델(Xu et al., 2023).
(b) WizardCoder: WizardLM과 동일한 기술을 사용하여 코딩 전문가로 정렬된 LLM(Luo et al., 2023b).
(c) WizardMath: 수학 전문가 모델로, 질의 증강, ChatGPT 보상 및 PPO 최적화로 정렬(Luo et al., 2023a).
(d) Vicuna: 사용자와 독점 챗봇 간의 대규모 대화 데이터를 사용해 정렬(Chiang et al., 2023).
(e) OpenChat: ShareGPT 데이터 세트의 선택된 데이터와 추가 학습 전략으로 정렬(Wang et al., 2023a).
(f) Llama-2-Chat: 감독 학습과 다중 회차 거절 샘플링으로 정렬(Touvron et al., 2023b).
ZOOTER와 기존 방식 모두 이 6개의 후보 모델을 기반으로 실험 및 평가를 수행했습니다.
학습 데이터셋
ZOOTER의 일반화 능력을 극대화하기 위해 오픈소스 데이터를 활용한 다양한 명령어 데이터셋을 생성했습니다.
세부 통계는 부록(Appx. §A)에 포함되어 있습니다.
벤치마크
ZOOTER를 다양한 다운스트림 작업에서 종합적으로 평가하기 위해 네 가지 벤치마크 그룹을 포함했습니다.
평가지표 (Metrics)
다양한 벤치마크의 점수 범위가 다르므로, 다음 두 가지 지표를 사용했습니다.
평균 작업 순위(MTR): 모든 하위 집합에서 모델의 평균 순위를 나타냄. 낮을수록 좋음.
향상률(Uplift Rate): 벤치마크 하위 집합에서 평가된 모델이 최고 성능을 달성한 비율. 높을수록 좋음.
총 26개 평가 하위 집합에서 이 두 지표를 보고했습니다.
비교군 (Baselines)
ZOOTER를 기존의 보상 모델 순위 매기기(RMR) 방법과 비교했습니다.
구성 (Configurations)
다음 섹션에서는 주요 결과와 ZOOTER의 성능 분석을 보고합니다.
주요 결과 요약
표 1에서 주요 결과를 제시합니다. 우리는 6개의 라우팅 후보 모델의 성능을 벤치마크에서 평가했으며, 평균적으로 가장 우수한 모델(BMA)은 LLAMA-2-CHAT로 나타났습니다. ZOOTER는 태그 기반 레이블 강화에서 β=0.3\beta = 0.3을 사용하여 평가되었습니다. 결과는 두 가지 측면에서 분석됩니다.
상호보완적 잠재력 (Complementary Potential)
우리는 5개의 기성 보상 모델을 사용한 보상 모델 순위 매기기(RMR)를 평가했습니다.
이 결과는 기성 LLM의 상호보완적 잠재력을 강력히 뒷받침하며, ZOOTER가 기성 보상 모델에서 은(銀) 감독 신호를 학습하여 라우팅 함수를 훈련한다는 핵심 동기를 뒷받침합니다. 그러나 RMR은 MMLU, GSM8K, HumanEval과 같은 특정 벤치마크에서 한계를 보였으며, 이는 지식, 수학, 코딩 문제의 정확한 판단이 여전히 어려움을 겪고 있음을 나타냅니다.
ZOOTER 성능 (Zooter Performance)
ZOOTER는 OAssistRM, LLM-Blender, Auto-J를 사용한 RMR 대비 계산 오버헤드에서 더 우수하며, AlpacaEval에서 QwenRM 기반 RMR보다도 성능이 우수했습니다. 그러나, 전반적으로 ZOOTER와 QwenRM 기반 RMR 간에는 여전히 격차가 존재합니다.
보상 모델의 불확실성 (RM Uncertainty)
레이블 강화 (Label Enhancement)
본 연구에서는 오픈소스 LLM의 상호보완적 잠재력과 기성 보상 모델의 보상 모델 순위 매기기를 재검토하며, LLM 앙상블의 효과를 입증했습니다. 우리는 ZOOTER라는 효율적인 보상 기반 라우팅 방법을 제안하여, 기성 LLM을 조합하는 데 활용했습니다.
종합적인 평가 결과, ZOOTER는 평균적으로 단일 최고 성능 모델을 초과했으며, 보상 모델 순위 매기기를 사용한 앙상블 모델조차도 상당히 적은 계산 오버헤드로 능가할 수 있음을 보여주었습니다.
앞으로의 연구 방향으로는 각 LLM의 잠재적 전문성을 심층적으로 해석하는 데 중점을 두는 것이 가치 있을 것입니다.