https://export.arxiv.org/pdf/2502.00997
MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs
1. 개요
최근 다양한 도메인(수학, 프로그래밍, 법률 등)에 특화된 전문가 대형 언어 모델(Expert LLMs)이 개발되고 있다.
이러한 모델을 단일 혼합 전문가 모델(Mixture-of-Experts, MoE)로 통합하는 방법이 연구되고 있지만,
동일한 모델 아키텍처(Homogeneous)만 가능하거나 단순 평균화 방식에 의존하는 한계가 존재한다.
MergeME는 다음을 해결하는 새로운 MoE 병합 기법을 제안한다.
- 동일한 아키텍처(Homogeneous Experts)에서 기존 단순 평균화 방식의 한계를 해결하여 성능 저하를 방지.
- 다른 아키텍처(Heterogeneous Experts)도 통합 가능하도록 병합 기법을 확장.
- 병합 후 MoE를 추가적으로 미세 조정(fine-tuning)하지 않아도 성능을 유지하는 방법 개발.
2. 기존 연구 및 한계점
2.1 기존 MoE 병합 방식
기존의 MoE 병합 연구는 주로 동일한 아키텍처의 전문가 모델을 통합하는 방법을 연구했다.
- Branch-Train-Mix (BTX)
- 동일한 모델에서 분기된 여러 전문가를 단순 평균(MEAN) 방식으로 병합.
- 단점: 전문가들이 독립적으로 훈련된 경우, 파라미터 충돌(Parameter Interference) 발생 가능.
- Dense Model Merging
- 전문가 모델을 단일 밀집 모델(Dense Model)로 병합하는 방법.
- 다양한 스케일링 및 조정 기법 적용 (예: Dare, Ties 방법 사용).
- 기존 MoE 방식의 한계
- 단순 평균화로 인한 성능 저하: 서로 다른 데이터로 훈련된 모델을 단순 평균하면, 중요 파라미터가 손실될 수 있음.
- 이질적 모델(Heterogeneous Experts) 병합 불가능: 기존 MoE 병합 기법은 동일한 구조의 모델만 병합 가능.
3. MergeME: 새로운 MoE 병합 기법
3.1 동일한 아키텍처(Homogeneous) 병합
- 기존 단순 평균화 방식의 문제점 해결
- 기존 방식은 파라미터의 부호(Sign) 충돌, 중요도 저하 등의 문제를 초래.
- 이를 해결하기 위해 Dare와 Ties 기법을 적용.
- Dare 병합 방식
- 작은 크기의 파라미터를 무작위로 제거한 후, 나머지 파라미터를 조정.
- 무작위 삭제된 파라미터를 재조정하여, 중요한 정보가 유지되도록 함.
- Ties 병합 방식
- 각 전문가의 파라미터를 분석하여, 충돌을 최소화하면서 가중치를 조정.
- 특히 부호(Sign) 충돌 문제를 해결하기 위해 특정 파라미터만 선택하여 병합.
3.2 이질적인 아키텍처(Heterogeneous) 병합
- 기존 MoE 병합 방식은 다른 구조의 모델을 병합하는 것이 불가능했음.
- MergeME는 Projector Layers를 활용하여 이질적인 전문가를 병합 가능하도록 함.
- 방법:
- 각 전문가 모델의 출력 차원을 통일 (프로젝터 사용).
- 토큰 라우팅을 최적화하여, 각 전문가가 적절한 입력을 받을 수 있도록 조정.
4. 실험 결과
4.1 동일한 아키텍처(Homogeneous) 병합 성능 비교
- MergeME의 Dare, Ties 방식은 기존 BTX 방식보다 6~10% 높은 성능을 기록.
- 특히 수학(MATH), 프로그래밍(HumanEval) 데이터셋에서 유의미한 성능 향상.
| 모델 | MBPP | HumanEval | MATH | GSM8K | NQ | TriviaQA | 평균 |
|---|
| Base-1B | 4.60 | 3.04 | 2.42 | 1.44 | 6.61 | 26.72 | 7.47 |
| BTX | 12.40 | 11.58 | 6.74 | 7.73 | 6.78 | 25.10 | 11.72 |
| Dare | 14.20 | 10.98 | 6.82 | 7.96 | 6.50 | 30.68 | 12.86 |
| Ties | 14.20 | 11.98 | 6.74 | 7.81 | 6.72 | 27.66 | 12.52 |
👉 결과 해석
- BTX보다 Dare, Ties 기법이 평균 성능 6~10% 향상.
- 특히 Dare 병합 방식이 가장 높은 성능을 보임.
4.2 이질적인 아키텍처(Heterogeneous) 병합 성능 비교
| 모델 | MBPP | HumanEval | MATH | GSM8K | NQ | TriviaQA | 평균 |
|---|
| Base-1B | 4.60 | 3.04 | 2.42 | 1.44 | 6.61 | 26.72 | 7.47 |
| Base-TinyLlama | 5.40 | 5.27 | 2.26 | 2.20 | 8.53 | 34.27 | 9.66 |
| MergeME (TinyLlama) | 15.80 | 11.59 | 5.42 | 6.29 | 8.25 | 32.71 | 13.34 |
👉 결과 해석
- 이질적인 아키텍처도 병합 가능하며, 성능 유지 가능.
- MergeME 방식은 기존 개별 모델보다 30% 이상 성능 향상.
5. 결론 및 향후 연구 방향
5.1 결론
- MergeME는 기존 MoE 병합 기법의 한계를 극복한 새로운 기법.
- Dare, Ties 방식으로 동일한 아키텍처 전문가 모델을 효과적으로 병합.
- Projector 기반 방식으로 다른 구조의 전문가도 병합 가능.
- 기존 MoE보다 성능이 향상되었으며, 추가 미세 조정 없이도 높은 성능 유지 가능.
5.2 향후 연구
- 더 큰 모델(예: 7B, 13B)에서 MergeME의 성능 검증.
- 멀티모달 MoE(이미지, 오디오 포함) 병합 연구.
- 이질적 전문가 간 라우팅 최적화 추가 연구.
📌 요약
MergeME는 기존 MoE 병합 방식의 한계를 극복한 새로운 기법으로,
- *동일한 아키텍처(Homogeneous)에서는 Dare, Ties 방식을 활용해 성능 저하 없이 전문가 모델을 병합**.
- 다른 아키텍처(Heterogeneous) 모델도 Projector 기법을 활용하여 병합 가능하도록 확장.
- 기존 방법보다 6~10% 높은 성능을 기록하며, 추가 미세 조정 없이도 성능 유지 가능. 🚀