Evolutionary Optimization of Model Merging Recipes

하임·2024년 11월 27일

Merging

목록 보기

1/7

Abstract (초록)

우리는 강력한 기초 모델의 생성을 자동화하기 위해 진화 알고리즘의 새로운 적용 방법을 제시합니다. 모델 병합은 비용 효율성으로 인해 LLM(대규모 언어 모델) 개발의 유망한 접근 방식으로 떠올랐지만, 현재는 인간의 직관과 도메인 지식에 의존하여 그 잠재력이 제한됩니다. 이에 우리는 기존 개별 오픈소스 모델의 다양한 조합을 자동으로 발견하여 추가적인 학습 데이터나 컴퓨팅 자원 없이 집합적 지능을 활용하는 진화적 접근 방식을 제안합니다. 이 접근 방식은 모델의 개별 가중치 이상으로 매개변수 공간과 데이터 흐름 공간에서 작동하여 최적화가 가능합니다. 이를 통해 일본어 수학 LLM과 같은 모델을 생성하는 크로스 도메인 병합을 촉진하여 수학적 추론 능력을 갖춘 모델을 만듭니다. 놀랍게도, 우리 일본어 수학 LLM은 여러 확립된 일본어 LLM 벤치마크에서 최첨단 성능을 달성했으며, 이러한 작업에 명시적으로 훈련되지 않았음에도 불구하고 더 많은 매개변수를 가진 모델을 능가했습니다. 또한, 문화적으로 인식하는 일본어 VLM은 일본의 문화적으로 특정한 콘텐츠를 설명하는 데 탁월한 성과를 보이며 이전 일본어 VLM을 능가했습니다. 이 연구는 새로운 최첨단 모델을 오픈소스 커뮤니티에 기여할 뿐만 아니라 자동화된 모델 구성을 위한 새로운 패러다임을 소개하며, 기초 모델 개발을 위한 대체적이고 효율적인 접근 방식을 탐색하는 길을 열어줍니다.

Introduction (서론)

모델 병합 [15, 28]은 대규모 언어 모델(LLM) 커뮤니티에서 최근 발전한 새로운 패러다임을 제시합니다. 여러 LLM을 하나의 아키텍처로 전략적으로 결합함으로써 비용 효율적이면서도 추가적인 학습이 필요 없는 접근 방식이 가능합니다. 이로 인해 모델 병합은 모델 개발에 매우 비용 효율적인 접근 방식으로 떠오르고 있습니다. 이 접근 방식 덕분에 연구자들의 관심을 끌며, 모델 병합에 대한 실험과 관심이 증가하고 있습니다. 오픈 LLM 리더보드는 현재 병합된 모델이 지배하고 있으며, 이는 기초 모델 개발의 민주화 가능성을 보여줍니다.

그러나 모델 병합은 때때로 모델 선택과 병합에 있어 모델 제작자의 직관에 의존하는 '블랙 아트'로 여겨집니다. 또한 모델 제작자는 다양한 벤치마크 작업에 대한 일부 도메인 지식을 필요로 하며, 인간의 직관만으로는 한계가 있으므로 더욱 체계적이고 효율적인 접근 방식이 필요합니다.

우리는 진화 알고리즘이 더 강력한 모델을 발견하도록 돕는 효과적인 모델 병합 솔루션을 제공할 수 있다고 믿습니다. 이를 위해 자동화된 모델 생성 방식을 제공하며, 모델 제작자가 효과적인 모델을 만들기 위한 새로운 직관과 비효율적인 접근 방식 대신 비용 효율적인 방식으로 경쟁력 있는 모델을 생산할 수 있게 합니다.

주요 기여 내용

이 연구는 기초 모델 개발 분야에 여러 중요한 기여를 합니다.

자동화된 모델 구성: 우리는 다양한 오픈소스 모델의 조합을 자동으로 발견하는 진화적 모델 병합 방식을 소개합니다.
크로스 도메인 병합: 비영어 언어 및 비영어 수학과 같은 다양한 모델을 병합하여 기존의 일반적인 방법으로는 불가능한 성과를 얻습니다.
최첨단 성능: 일본어 수학 LLM과 일본어 VLM을 자동으로 생성하여 놀라운 성능을 발휘합니다.
높은 효율성과 강력한 일반화 가능성: 우리 모델은 적은 매개변수를 사용하면서도 일부 기존 일본어 LLM보다 높은 성능을 보입니다.
문화적으로 인식하는 VLM: 일본어 설명 능력에서 이전 일본어 VLM을 능가하는 성과를 보입니다.

우리는 Evol-MM과 Evol-MM-JP를 오픈소스로 제공할 예정이며, 이로써 기초 모델 개발에 있어 새로운 효율적 접근 방식을 제공합니다.

2.1 모델 병합 개요

모델 병합은 여러 사전 훈련된 모델의 강점을 결합하여 단일 모델을 형성하는 혁신적인 접근 방식입니다.

2.2 언어 모델 병합 (Merging Language Models)

단순 가중치 보간(interpolation)은 특정 조건 하에서 사전 학습된 이미지 생성 모델을 병합하는 데 효과적으로 작동하지만, 놀랍게도 언어 모델 병합에서도 일부 상황에서 유사하게 작용합니다. 그러나 새로운 연구들은 단순 가중치 보간만으로는 성능 문제를 해결하기 어렵다는 것을 발견했습니다 [49]. 이에 따라 새로운 방법들이 개발되어 언어 모델 병합의 성능을 개선하고 있습니다. 한 방법으로는 Task Arithmetic [21]이 있으며, 이는 훈련된 가중치에서 사전 훈련된 가중치를 빼서 task 벡터를 구축한 후 이를 다른 작업에 적용하는 것입니다. 이러한 접근 방식은 훈련이 필요 없는 모델 병합을 가능하게 합니다.

가중치 보간 기반 방법의 주요 문제 중 하나는 매개변수 간섭입니다. 최근 연구 [49]는 간섭의 두 가지 주요 원인, 즉 가중치 및 매개변수 값과 상반되는 매개변수 기호 간의 충돌을 식별하고, 이러한 문제를 해결하여 모델 병합 성능을 개선하는 새로운 방법을 제안했습니다. 제안된 TIES-Merging 방법은 모델 병합 성능을 개선하기 위해 기존 모델의 정보를 통합하여 최소한의 매개변수 변경을 유지하고, 기호 충돌을 해결하며, 정렬된 매개변수만을 병합하는 3단계 과정을 통합합니다.

최근의 연구 [50]는 DARE 방법을 통해 미세한 차이를 제로화하여 병합 중 원래의 기본 모델과 세부 조정된 모델 간의 차이를 최소화함으로써 모델 병합 성능을 더욱 향상시켰습니다. 이 방법은 Task Arithmetic [21] 또는 TIES-Merging [49]과 함께 사용됩니다.

이미지 생성 모델 병합 기법은 이러한 방법들이 등장한 이후에야 커뮤니티에서 인기를 끌었으며, 병합 툴킷도 많이 개발되었습니다. 예를 들어, 모델 병합 도구로 잘 알려진 mergkitet [15, 28]이 있습니다. 이 툴킷은 주로 선형 보간과 단순 가중치 보간을 포함한 인기 있는 여러 병합 방법을 제공합니다. 최근 TIES-Merging, DARE 등이 추가되었으며, 이 툴킷을 통해 다양한 작업에서 모델 병합 방법을 실험할 수 있게 되었습니다. 많은 LLM 리더보드 모델이 점차 커뮤니티가 만든 병합 모델로 대체되고 있습니다.

이 외에도 프랑켄머징(Frankenmerging)이라는 추가 방법이 소개되었습니다. 이는 단순 가중치 보간 방식에 기반하지 않고, 사용자로 하여금 여러 작업에 대해 최적화된 다양한 층(layer)을 병합하여 맞춤형 모델을 생성할 수 있도록 합니다. 이 접근 방식은 병합이 더 복잡하며, 기존 아키텍처와 호환되도록 구성하기 위해 신중한 튜닝이 필요합니다. 이는 커뮤니티에서 도전적인 방식으로 여겨지며, 새로운 병합 방법을 탐구하는 데 있어서 중요한 과제가 되고 있습니다.

2.3 진화적 신경망 아키텍처 탐색과의 연결 (Connection to Evolutionary Neural Architecture Search)

모델 병합은 잠재력과 접근성을 크게 확장시키며 모델 구축 과정을 민주화합니다. 그러나 인간의 직관과 도메인 지식에 크게 의존한다는 한계가 있습니다. 열린 모델과 작업의 다양성이 증가함에 따라 우리는 보다 체계적인 접근 방식을 요구하게 되었습니다. 우리는 진화적 알고리즘이 전통적인 방법과 인간의 직관이 놓칠 수 있는 가능성과 비정형적인 조합을 탐색할 수 있다고 믿습니다. 이 알고리즘들은 새로운 결합 방식을 통해 기존 모델 병합 솔루션에서 찾기 어려운 결과를 도출할 수 있는 잠재력을 가지고 있습니다.

딥 러닝 분야에서는 신경망 아키텍처 탐색(NAS) [51]이 새로운 아키텍처를 발견하기 위해 활용됩니다. NAS 방법은 많은 계산 자원이 필요하며, 각 후보 아키텍처를 훈련하는 데 상당한 자원이 소모됩니다. 그러나 우리의 접근 방식은 Transformer 블록과 같은 기존 컴포넌트를 재사용하여 이러한 자원을 절약하는 데 중점을 둡니다. NAS와 달리 우리는 모델을 처음부터 훈련할 필요 없이 모델의 구조를 조합하고 곧바로 평가할 수 있습니다.

3 Method (방법론)

우리의 목표는 여러 기초 모델들로부터 선택된 모델들을 자동으로 병합하여 단일화된 프레임워크를 만들어내는 것입니다. 이 병합된 모델의 성능은 컬렉션에 포함된 개별 모델의 성능을 모두 능가해야 합니다. 우리의 접근 방식의 핵심은 진화적 알고리즘을 적용하여 모델 병합의 복잡한 세부 사항을 해결하는 것입니다. 구체적으로, 우리는 모델 병합 문제를 매개변수 공간(parameter space, PS)과 데이터 흐름 공간(data flow space, DFS)이라는 두 가지 차원으로 나누어 접근합니다. 이러한 분석을 바탕으로, 독립적인 구성 요소들을 유기적으로 결합하여 강력하고 일관된 병합 모델을 구성합니다. 아래 그림은 이러한 접근 방식의 개요를 도식적으로 나타내고 있습니다.

그림 1 설명

그림 1: 진화적 모델 병합 개요. 우리의 접근법은 (1) 매개변수 공간(PS)에서 각 계층의 가중치를 진화시키고, (2) 데이터 흐름 공간(DFS)에서 계층의 순서를 진화시키며, (3) PS와 DFS에서 병합 방법을 통합하는 전략을 포함합니다. PS에서의 병합은 단순히 계층 매개변수를 복사하여 붙이는 것이 아니라, 가중치를 혼합하여 모델을 생성하는 것입니다. 예를 들어, 빨간색과 파란색을 섞어 보라색을 만든다는 식으로 혼합됩니다. 주의할 점은, 그림에서 질문을 영어로 번역했지만 실제 모델은 일본어 텍스트 세트에서 작동합니다.

3.1 매개변수 공간에서의 병합 (Merging in the Parameter Space)

매개변수 공간에서의 모델 병합은 여러 기초 모델들의 가중치를 통합하여 단일 신경망 아키텍처를 생성하는 것입니다. 이 방식으로 생성된 모델은 개별 모델보다 더 우수한 성능을 보입니다. 매개변수 공간에서 모델 매개변수 설정을 결합하기 위해 다양한 전략들이 제안되어 왔습니다 [34, 48]. 우리는 각 계층별로 강점을 최대로 활용하기 위해 가중치 벡터 분석을 수행하여 특정 작업에 최적화된 모델을 병합합니다.

특히, 본 연구에서는 TIES-Merging과 DARE 방법을 활용하여 모델 병합 성능을 극대화했습니다 [49, 50]. 여기서 ‘계층’은 입력/출력 임베딩 계층이나 Transformer 블록을 의미합니다. 우리는 스파시파이(sparsification)를 포함한 매개변수 설정을 통해 각 계층별로 매개변수 구성 설정을 지정합니다. 이러한 구성은 CMA-ES [17]와 같은 진화적 알고리즘을 통해 최적화되며, 특정 작업에 최적화된 성능을 이끌어 냅니다 (예: VQA의 MSGM 점수 최대화).

3.2 데이터 흐름 공간에서의 병합 (Merging in the Data Flow Space)

최근의 분석 및 연구들은 언어 모델에서 지식이 널리 분포되어 있다는 것을 암시하며, 이는 데이터 흐름 공간(DFS)에서의 병합 가능성을 시사합니다 [14, 35, 36]. PS에서의 병합과 달리, DFS에서의 모델 병합은 원래의 가중치 순서를 유지하며, 입력 데이터가 네트워크를 통해 각 계층을 지나면서 조절됩니다. DFS 병합의 주요 특징은 모델 내부에서 계층의 순서를 조정하여 정보 흐름을 최적화하는 것입니다. 예를 들어, 데이터는 모델 내에서 특정 계층을 거쳐 다음 계층으로 전달되며, 이 과정에서 정보를 최적화하는 방식으로 진행됩니다.

이 연구에서는, 우리는 순차적 연결과 비적응적 구성을 제한하고 더 유연한 데이터 흐름을 통해 모델의 성능을 최적화하는 접근을 취합니다. 구체적으로, 모델의 컬렉션 M 과 목표 지표 T 를 사용하여 각 계층 순서를 탐색합니다. 이때 $L_{i,j}$ 는 i -번째 모델의 j -번째 계층에서 특정 경로를 따른다는 의미를 가집니다.

다음과 같은 절차를 통해 병합을 수행합니다:

주어진 모델의 수가 $M$ 일 때, 탐색 공간의 크기는 $(M + 1)^T$ 로 설정됩니다. 여기서 $+1$ 은 패스스루(pass-through) 계층의 추가를 의미하며, 이 설정은 매우 큰 탐색 공간으로 이어집니다.
모델 내 특정 계층에 대해 추가 레이어 탐색을 수행하여, 실험적으로 최적화된 경로를 통해 입력 데이터가 특정 계층을 거칠 수 있도록 합니다.

계층별 탐색과 관련된 주요 변수들은 다음과 같습니다:

T: 모델에서 탐색할 전체 계층의 수
$L_{i,j}$ : 모델 $i$ 의 $j$ -번째 계층의 경로

이를 통해 DFS에서 가능한 많은 순열을 생성하며, 특정 작업에 맞게 성능을 최적화합니다. 또한, 각 반복에서 기존 경로를 사용하지 않고 새로 설정된 경로를 통해 모델 성능이 개선될 수 있도록 설계합니다.

모든 계층은 순차적으로 연결되며, $i$ -번째 모델의 모든 계층은 $i + 1$ -번째 모델의 계층들에 의해 반복됩니다. 이러한 접근을 통해 우리는 모델을 연결하거나 계층을 삭제할 수 있습니다. 이 탐색 과정에서 특정 레이어를 DFS에 포함하거나 제외하는 방법을 제시하여, 진화적 알고리즘을 통해 최적 경로를 자동으로 결정하게 됩니다.

수학적 정의:

$W_{j} = \theta(j,t)$ , 여기서 $\theta$ 는 각 계층의 가중치 변수를 나타냅니다.

이 방식은 모델의 파라미터를 탐색 공간 내에서 확장하여 성능을 최대화할 수 있게 합니다.

3.3 두 공간에서의 병합 (Merging in Both Spaces)

PS와 DFS에서의 모델 병합은 다중 목표를 위해 필요하며, 단일 차원의 병합보다 병합 모델의 성능을 더 강화할 수 있습니다. PS 병합은 먼저 모델의 각 계층에 대해 개별적으로 수행된 후 DFS 병합이 다중 목표 유전 알고리즘(NSGA-II [10])을 사용하여 적용됩니다. 이 접근법은 DFS 병합이 최종 성능을 높이기 위해 사용되는 반면, PS 병합은 초기 모델 구성 요소들의 혼합을 위한 최적화로 사용됩니다.

DFS와 PS 병합을 동시에 수행하는 이중 병합 방식은 다중 목적 문제를 다루는 데 매우 유용합니다.

4 Experiments (실험)

커뮤니티의 대부분 병합된 모델들은 Open LLM 리더보드 [20]에 정의된 좁은 범위의 작업에 최적화됩니다. 우리의 동기는 진화적 탐색을 통해, 서로 다른 도메인(예: 비영어 언어와 수학 또는 비영어 언어와 비전)에서 매우 다른 모델들을 병합할 수 있는 새로운 방식을 찾는 것입니다. 이는 연구자들이 기존 방법으로는 찾기 어려운 혁신적인 병합 솔루션을 발견할 수 있게 합니다. 또한, 매우 다른 도메인의 모델을 병합하는 것은 더 광범위한 사용 사례를 다룰 수 있는 현실적이고 적용 가능한 모델을 생성하여, 리더보드에 최적화된 모델과 차별화된 가치를 제공합니다.

우리는 Section 3에서 설명한 진화적 모델 병합 접근 방식을 사용하여, 수학 문제 해결이 가능한 일본어 LLM과 일본 문화적으로 특정한 콘텐츠를 다룰 수 있는 일본어 VLM을 개발합니다. 구체적으로, Section 4.1에서는 일본어 수학 LLM과 영어 수학 LLM을 병합하여 일본어 Math LLM을 만드는 실험을 설명하고, Section 4.2에서는 일본어 LLM과 영어 VLM을 병합하여 일본어 VLM을 생성하는 실험을 설명합니다.

4.1 일본어 수학 LLM 개발 (Evolving Japanese Math LLM)

4.1.1 설정 (Setup)

Source Models: 일본어로 수학 문제를 해결할 수 있는 모델을 개발하기 위해, 일본어 LLM 및 수학 LLM들을 포함한 소스 모델 집합에 진화적 모델 병합을 적용합니다. 사용된 모델에는 shisa-gamma-7b-v1-3 [일본어 LLM], WizardMath-7B-V1.1 [영어 LLM], Abel-7B-002 [수학 LLM]이 포함됩니다. 모든 모델은 Mistral-7B-v0.1 [22]을 기반으로 파인튜닝되었습니다.
Dataset: 테스트에 사용된 데이터는 MGSM 데이터셋 [41]로, 다양한 언어로 번역된 GSM8K 데이터셋의 다중언어 버전입니다. 이 데이터셋의 일본어 세트는 250개의 샘플로 구성되어 최종 평가에 사용되었습니다. 진화적 검색을 위한 데이터는 이와 다른 데이터셋을 사용하여 과적합을 피했습니다. 특히, 우리는 MGSM 테스트 세트의 모든 1069개 샘플에 대해 정확도를 평가했으며, 이를 바탕으로 MGSM 테스트 세트를 일본어로 번역했습니다.
Evaluation: 우리는 일본어 수학 문제에 대한 일본어 응답을 생성하는 모델의 능력을 평가했습니다. 다음 기준을 사용하여 평가를 수행했습니다: (1) 응답에 포함된 숫자가 정확해야 하며, (2) 추론 과정이 일본어로 작성되어야 합니다.

필요할 경우, 생성된 응답을 매뉴얼로 수정하여 모델이 예상 응답 형식에 맞출 수 있도록 했습니다. 이 작업은 정답에 도달하는 데 있어 단계를 포함하며, 모델이 일관성을 유지하도록 하기 위한 방안입니다. 실험에는 fasttext [23, 24]와 몇 가지 맞춤형 구문 분석기를 사용하여 모델의 응답 품질을 평가했습니다. 1회성 평가 접근 방식을 사용했습니다.

Optimization: PS에서의 최적화를 위해, 우리는 Opytuna [2]에 구현된 CMA-ES[17] 알고리즘을 사용했습니다. 구체적으로, 모든 초기 매개변수를 0.5로 설정하고, 시그마를 1/6로, 인구 크기를 $4 + \lfloor 3 \ln(n_{\text{params}}) \rfloor$ 로 설정했습니다. 여기서 $n_{\text{params}}$ 는 최적화할 매개변수의 개수입니다. 적합도 함수는 모든 1069개 샘플에 대한 정확도를 측정하여 정의했습니다. 최적화는 1000회 반복으로 설정했으며, 최종 모델로 선택된 구성은 테스트 세트에서의 정확도를 기준으로 하였습니다. 사전 실험에서 TIES-Merging [49]와 DARE [50]을 함께 활용하여 최적의 매개변수를 찾았습니다.

DFS 병합 실험에서는 $M = 64$ , $r = 3$ 으로 설정하고 $T = M \times r = 192$ 로 설정했습니다. 배치 크기 200을 사용하여 성능을 평가했으며, 최적화 과정 중 성능이 가장 높았던 스냅샷을 최종 평가에 사용했습니다.

Id	Model	Type	Size	MGSM-JA ( $acc \%$ )	JP-LMEH ( $avg \%$ )
1	Shisa Gamma 7B v1	EN general	7B	9.6	66.1
2	WizardMath 7B v1.1	EN math	7B	18.4	46.0
3	Abel 7B 002	EN math	7B	30.0	56.5
4	Ours (PS)	1 + 2 + 3	7B	52.0	70.5
5	Ours (DFS)	3 + 1 + 3	10B	36.4	53.2
6	Ours (PS+DFS)	4 + 1	10B	36.2	67.6

4.1.2 결과 (Results)

MGSM-JA 결과는 일본어 수학 문제와 전반적인 일본어 벤치마크 작업에서 LLM들의 성능을 보여줍니다. MGSM 테스트 세트에서 이전에 사용된 최적화 방법을 적용하여 얻은 결과를 보고하며, 수학적 능력이 부족한 일본어 모델(모델 2와 3)은 MGSM 세트의 저조한 점수로 제한된 수학적 지식을 나타냅니다. 반면, 모델 1은 모델의 수학적 역량을 제대로 반영하지 않음에도 불구하고 전반적인 일본어 언어 이해력이 높습니다.

특히, 우리 모델(모델 4-6)은 성능이 현저히 향상되어 평균 52.0의 점수를 달성했습니다. 주목할 점은, DFS 방식으로 병합된 모델 5는 DFS 병합을 통해 경험한 일본어 모델과 수학 모델을 결합하여 상당한 성능 향상을 이루었습니다. 또한, 이러한 모델은 일본어 언어 이해력과 수학 문제 해결 능력이 모두 향상되었음을 보여줍니다.

그림 2는 병합된 모델들의 수학 문제에 대한 성능을 보여주는 개요입니다. 우리의 병합된 모델은 특히 숫자가 관련된 문제에서 강한 성능을 보이며, 15개 문제 이상에서 100% 정확도를 달성했습니다. 결과적으로, 이러한 성능은 단순히 점수가 높은 것뿐만 아니라, 모델이 일본어 LLM과 수학 모델을 효과적으로 결합하여 양쪽의 장점을 모두 활용할 수 있음을 시사합니다.

더 나아가 테이블 2는 일반 일본어 언어 능력을 평가하는 JP-LMEH 점수를 보고합니다. JP-LMEH는 9개 작업을 포함하는 벤치마크 세트로, 평균 점수는 일반적인 일본어 언어 능력을 나타내는 지표로 사용됩니다. 상세한 내용은 표 2에 제공되어 있습니다.

표 2: 일본어 언어 능력에 대한 JP-LMEH 점수 분석

JP-LMEH 점수는 일본어 언어 능력을 평가하는 벤치마크로, 9개 작업으로 구성되어 있으며, 각 작업의 평균 점수는 전반적인 일본어 언어 능력의 지표로 사용됩니다. 표에는 각 모델의 성능이 자세히 나열되어 있습니다.

Id	모델	유형	크기	ICoNJA	NLI	MARC	ISQuAD	JAKET	XL-Sum	WoSo	MGSM	JColA	Avg
1	Shisa Gamma 7B v1	일반 EN	7B	78.1	92.1	94.4	89.8	86.9	79.3	90.4	9.6	87.1	78.9
2	WizardMath 7B v1.1	EN 수학	7B	74.7	91.7	89.3	83.6	69.8	69.5	82.5	18.4	72.9	67.1
3	Abel 7B 002	EN 수학	7B	75.2	94.4	84.4	73.3	68.8	72.3	82.8	30.0	68.9	66.5
4	우리 모델 (PS)	1 + 2 + 3	7B	83.7	95.3	91.5	86.6	77.8	73.3	85.6	52.0	75.5	72.8
5	우리 모델 (DFS)	3 + 1 + 3	10B	80.2	92.4	89.7	76.3	72.4	72.0	80.0	36.4	73.2	70.5
6	우리 모델 (PS+DFS)	4 + 1	10B	82.7	93.5	90.3	78.9	75.6	73.7	83.6	36.2	75.1	72.6

4.1.3 분석 (Analysis)

매개변수 공간에서 모델 병합을 탐색하면서, 우리는 다양한 구성, 예를 들어 여러 계층 그룹에서 병합 매개변수 할당을 변경하는 것을 실험했습니다. 그러나 제약된 데이터 세트로 인해 구성 복잡성의 증가와 관련된 성능의 눈에 띄는 개선을 목격하지 못했습니다. 결과적으로, 우리는 가장 간단한 설정을 채택한 PS 병합 모델(표 1의 모델 4)에 대한 보고에 집중했습니다. 각 소스 모델을 단일 계층으로 간주하고 진화적 병합을 위해 각각에 두 개의 DARE-TIES 연관 매개변수를 할당합니다.
그림 3은 PS 병합 후 진화된 매개변수 구성을 보여줍니다.

CMA-ES 최적화 결과는 세 가지 모델이 모두 중요하다는 것을 보여줍니다. 최적화된 가중치 값의 균일성에서 알 수 있듯이요. 일본 LLM의 지배적인 밀도는 과제 해결에 중요한 기여를 시사합니다. 우리는 이것이 부분적으로 일본 LM이 Mistral 기반 모델에서 미세 조정을 더 많이 한 데 기인할 수도 있다고 추측합니다. [50, 섹션 4.6]의 논의에 따라 DARE의 희소화는 이렇게 광범위하게 미세 조정된 모델에 적용될 때 성능을 저하시키는 경향이 있습니다. 우리의 진화적 탐색은 일본어 LM의 밀도를 증가시킴으로써 이 문제를 해결하는 데 성공한 듯합니다.

PS 병합 실험에서 파생된 매개변수 설정은DFS 병합 노력의 결과와 잘 일치합니다. PS 병합 모델을 소스 모델 풀에 통합하고모든 잠재적 페어링에 DFS 병합을 적용함으로써 PS 병합 모델과 일본어 모드(표 1의 모델 6)의 조합으로 최적의 성능을 관찰했습니다.
이 결과는 그림 3에서 두드러지게 나타난 것처럼 일본어 모델의 상당한 영향을 반영하며
진화적 모델 병합의 상당한 약속을 재확인합니다.

그림 4는 추론 경로의 진화를 보여줍니다. 여기서 우리의 접근 방식은 일관되게 초기 단계의 가치를 인식하여 첫 번째 모델(PS 병합 모델)의 모든 계층을 통합했지만 마지막 디코딩 계층과 임베딩 계층은 제외했습니다. 프로세스가 진행됨에 따라 이 방법은 선택을 더 작고 효과적인 계층 세트로 개선하고 두 기여 모델의 계층을 전략적으로 번갈아 가며 사용했습니다. 중요한 점은 스케일링 매개변수 Wij가 중요한 요소로 나타났고, 우리의 절제 연구에서 진화된 모델에서 이를 제거하면(예: Wij = 1로 설정) 성능이 20% 이상 감소하여 모델의 효능에서 이러한 요소의 중요성을 강조했습니다.

4.2 일본어 VLM 발전 (Evolving Japanese VLM)

4.2.1 멀티모달 확장 (Multi-modality Extension)

이제 우리는 다중 모달 모델을 발전시키고, 문화적으로 특정한 내용을 인식하는 일본어 VLM을 발전시킬 것입니다. VLM은 일반적으로 세 가지 구성 요소를 갖습니다: (1) 텍스트 추출 아키텍처; (2) 언어 모델을 통한 텍스트 생성 기능; (3) 비전 네트워크를 통한 시각적 특징 추출 기능. 이 구조는 LLM의 기능을 확장하고, 특히 시각 데이터에 강한 측면을 제공합니다. 동안 훈련에서는 투영 네트워크와 언어 모델이 텍스트 생성에 사용되며, 비전 인코더는 고정됩니다.

4.2.2 설정 (Setup)

소스 모델로서, VLM 구성요소는 독립적인 LLM으로 간주될 수 있으며, 시각적 프롬프트를 이해하는 추가 기능을 가집니다. 이 관점에서, 비전 인코더를 추가하고, 새로운 LLM 구성요소에 초점을 맞추어 접근하는 것은 직관적입니다. 3단계에서 개발된 방법론을 적용하여 새로운 LLM을 확장된 기능으로 구현합니다. 우리는 이 공간에서 shisa-gamma-7b-v1 [1], shisa-Math-7b [1], 그리고 LLaVa-1.6-Mistral-7B [31]을 소스 모델로 사용합니다.

데이터 세트로서, 일본어 VLM 데이터가 부족한 상황에서 공개적으로 접근 가능한 데이터를 기반으로 실험을 진행합니다. 우리는 또한 일본어 비주얼 질문 응답(VQA) 작업을 위해 공인된 JAV-VQA-500 데이터셋과 일본어 버전의 LLaVa-Bench-In-the-Wild [32]를 사용합니다.

4.2.3 결과 (Results)

우리의 VLM이 기본 라인과 비교하여 일본어 VQA-500 벤치마크에서 우수한 성능을 보인 것은 LLM 구성요소의 언어 처리 능력과 비전 네트워크를 통한 시각적 통합이 잘 이루어졌음을 의미합니다. 또한, 우리의 VLM은 원래의 VLM을 통합하여 더 나은 결과를 얻을 수 있었으며, 특히 복잡한 시각적 문맥에서의 질문에 대한 더 나은 대답을 제공할 수 있었습니다.

우리의 결과는 정성적 결과 외에도 정량적으로 우리의 VLM을 기준 모델과 비교하여 우리 모델이 얼마나 우수한 정보와 정확한 정보를 제공하는지를 보여줍니다. 아래 표 3은 LLaVa 1.6 Mistral 7B를 기준으로 한 VLM과 일본어 안정 VLM, 그리고 우리 모델을 비교한 것입니다. JA-VG-VQA-500은 일반적인 일본어 VQA 작업을 측정하고, JA-VLM-Bench-In-the-Wild는 복잡한 시각적 문맥에서의 VQA 작업을 평가합니다.

표 3: VLM 성능 비교

모델	JA-VG-VQA-500 (ROUGE-L)	JA-VLM-Bench-In-the-Wild (ROUGE-L)
LLaVa 1.6 Mistral 7B	14.3	40.5
Japanese Stable VLM	14.3	40.5
우리 모델	19.7	51.2

5 논의 및 향후 과제

이 보고서에서는 진화적 기술을 이용하여 효율적으로 다양한 오픈 소스 모델에서 최상의 방법을 발견하는 일반적인 방법을 제안합니다. 이 방법은 새로운 인지 모델을 발견하는 데 집중하여 사용자가 지정한 기준에 따라 다양한 기능을 갖춘 모델을 결합합니다. 우리는 이 접근법이 다양한 도메인(예: 비영어 언어와 수학, 비영어 언어와 비전)에서 인간 전문가가 발견하기 어려운 새로운 방법을 자동으로 발견할 수 있다는 것을 발견했습니다.

우리의 접근법을 테스트하기 위해, 우리는 자동적으로 일본어 수학 LLM을 생성했습니다. 이 모델은 여러 LLM 및 비전 벤치마크에서 놀라운 성능을 보여주었고, 복잡한 언어 처리 작업에서 일반적인 성능 향상을 달성했습니다. 이 접근법은 모델 개발자들이 다양한 데이터 세트에서 그 가치를 더욱 증대시킬 때 더욱 중요해질 것입니다.

우리는 이 접근법이 다양한 리소스 환경에서도 유연하게 적용될 수 있도록 설계되었으며, 자원이 부족한 상황에서도 맞춤형 솔루션을 제공할 수 있습니다. 이 방법론은 진화적 사고를 적용하여, 인간의 전문가가 고려하지 못한 복잡한 솔루션을 발견할 수 있습니다. 또한, 이 접근법은 진화적 알고리즘을 통한 리소스 활용 최적화의 가능성을 탐구하는 중요한 발판을 제공합니다.

6 한계점

우리는 진화적 모델 병합이 소스 모델에서 전문 지식을 효과적으로 통합한다는 점을 인정하지만, 그것은 또한 그 한계를 반영합니다. 예를 들어, 우리는 종종 소스 모델들의 제한 사항을 경험했습니다. 특히, 이러한 인스턴스들은 명령어에 대한 파인 튜닝이나 정렬을 포함하지 않으므로, 모델이 잘못된 결과를 생성할 가능성을 높입니다.

7 저자 기여도

Takuya Akiba는 "진화적 최적화 모델 병합 레시피" 프로젝트를 시작하고, 프로젝트 설계를 문서화했습니다. Mokato Shimane은 매개변수 공간 모델 병합 실험을 주도하며, 프로젝트에 대한 지식을 제공했습니다. 또한, 뉴럴 아키텍처 검색과 모델 병합에서 영감을 얻은 아이디어와 방법을 데이터 흐름 모델 병합에 통합하였습니다. Yujin Tang은 데이터 검색 및 형태학 진화 문헌에 대한 노력을 지휘했으며, 이 영역에서 기초적인 방법을 확립했습니다. Qi Sun은 매개변수 공간 모델 병합 전략과 관련하여 중요한 지적 통찰력, 조언, 피드백 및 글쓰기에 기여했습니다.

하임

NLP 공부합니당

다음 포스트

Evolutionary Optimization of Model Merging Recipes

Merging

Abstract (초록)

Introduction (서론)

주요 기여 내용

2.1 모델 병합 개요

2.2 언어 모델 병합 (Merging Language Models)

2.3 진화적 신경망 아키텍처 탐색과의 연결 (Connection to Evolutionary Neural Architecture Search)

3 Method (방법론)

그림 1 설명

3.1 매개변수 공간에서의 병합 (Merging in the Parameter Space)

3.2 데이터 흐름 공간에서의 병합 (Merging in the Data Flow Space)

3.3 두 공간에서의 병합 (Merging in Both Spaces)

4 Experiments (실험)

4.1 일본어 수학 LLM 개발 (Evolving Japanese Math LLM)

4.1.1 설정 (Setup)

4.1.2 결과 (Results)

4.1.3 분석 (Analysis)

4.2 일본어 VLM 발전 (Evolving Japanese VLM)

4.2.1 멀티모달 확장 (Multi-modality Extension)

4.2.2 설정 (Setup)

4.2.3 결과 (Results)

5 논의 및 향후 과제

6 한계점

7 저자 기여도

Arcee’s MergeKit: A Toolkit for Merging Large Language Models

0개의 댓글

Evolutionary Optimization of Model Merging Recipes

Merging

Abstract (초록)

Introduction (서론)

주요 기여 내용

2 Background and Related Work (배경 및 관련 연구)

2.1 모델 병합 개요

2.2 언어 모델 병합 (Merging Language Models)

2.3 진화적 신경망 아키텍처 탐색과의 연결 (Connection to Evolutionary Neural Architecture Search)

3 Method (방법론)

그림 1 설명

3.1 매개변수 공간에서의 병합 (Merging in the Parameter Space)

3.2 데이터 흐름 공간에서의 병합 (Merging in the Data Flow Space)

3.3 두 공간에서의 병합 (Merging in Both Spaces)

4 Experiments (실험)

4.1 일본어 수학 LLM 개발 (Evolving Japanese Math LLM)

4.1.1 설정 (Setup)

4.1.2 결과 (Results)

4.1.3 분석 (Analysis)

4.2 일본어 VLM 발전 (Evolving Japanese VLM)

4.2.1 멀티모달 확장 (Multi-modality Extension)

4.2.2 설정 (Setup)

4.2.3 결과 (Results)

5 논의 및 향후 과제

6 한계점

7 저자 기여도

Arcee’s MergeKit: A Toolkit for Merging Large Language Models

0개의 댓글