MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs

하임·2026년 1월 9일

Merging

목록 보기
6/7

https://export.arxiv.org/pdf/2502.00997

MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs


1. 개요

최근 다양한 도메인(수학, 프로그래밍, 법률 등)에 특화된 전문가 대형 언어 모델(Expert LLMs)이 개발되고 있다.

이러한 모델을 단일 혼합 전문가 모델(Mixture-of-Experts, MoE)로 통합하는 방법이 연구되고 있지만,

동일한 모델 아키텍처(Homogeneous)만 가능하거나 단순 평균화 방식에 의존하는 한계가 존재한다.

MergeME는 다음을 해결하는 새로운 MoE 병합 기법을 제안한다.

  1. 동일한 아키텍처(Homogeneous Experts)에서 기존 단순 평균화 방식의 한계를 해결하여 성능 저하를 방지.
  2. 다른 아키텍처(Heterogeneous Experts)도 통합 가능하도록 병합 기법을 확장.
  3. 병합 후 MoE를 추가적으로 미세 조정(fine-tuning)하지 않아도 성능을 유지하는 방법 개발.

2. 기존 연구 및 한계점

2.1 기존 MoE 병합 방식

기존의 MoE 병합 연구는 주로 동일한 아키텍처의 전문가 모델을 통합하는 방법을 연구했다.

  1. Branch-Train-Mix (BTX)
    • 동일한 모델에서 분기된 여러 전문가를 단순 평균(MEAN) 방식으로 병합.
    • 단점: 전문가들이 독립적으로 훈련된 경우, 파라미터 충돌(Parameter Interference) 발생 가능.
  2. Dense Model Merging
    • 전문가 모델을 단일 밀집 모델(Dense Model)로 병합하는 방법.
    • 다양한 스케일링 및 조정 기법 적용 (예: Dare, Ties 방법 사용).
  3. 기존 MoE 방식의 한계
    • 단순 평균화로 인한 성능 저하: 서로 다른 데이터로 훈련된 모델을 단순 평균하면, 중요 파라미터가 손실될 수 있음.
    • 이질적 모델(Heterogeneous Experts) 병합 불가능: 기존 MoE 병합 기법은 동일한 구조의 모델만 병합 가능.

3. MergeME: 새로운 MoE 병합 기법

3.1 동일한 아키텍처(Homogeneous) 병합

  1. 기존 단순 평균화 방식의 문제점 해결
    • 기존 방식은 파라미터의 부호(Sign) 충돌, 중요도 저하 등의 문제를 초래.
    • 이를 해결하기 위해 DareTies 기법을 적용.
  2. Dare 병합 방식
    • 작은 크기의 파라미터를 무작위로 제거한 후, 나머지 파라미터를 조정.
    • 무작위 삭제된 파라미터를 재조정하여, 중요한 정보가 유지되도록 함.
  3. Ties 병합 방식
    • 각 전문가의 파라미터를 분석하여, 충돌을 최소화하면서 가중치를 조정.
    • 특히 부호(Sign) 충돌 문제를 해결하기 위해 특정 파라미터만 선택하여 병합.

3.2 이질적인 아키텍처(Heterogeneous) 병합

  • 기존 MoE 병합 방식은 다른 구조의 모델을 병합하는 것이 불가능했음.
  • MergeME는 Projector Layers를 활용하여 이질적인 전문가를 병합 가능하도록 함.
  • 방법:
    1. 각 전문가 모델의 출력 차원을 통일 (프로젝터 사용).
    2. 토큰 라우팅을 최적화하여, 각 전문가가 적절한 입력을 받을 수 있도록 조정.

4. 실험 결과

4.1 동일한 아키텍처(Homogeneous) 병합 성능 비교

  • MergeME의 Dare, Ties 방식은 기존 BTX 방식보다 6~10% 높은 성능을 기록.
  • 특히 수학(MATH), 프로그래밍(HumanEval) 데이터셋에서 유의미한 성능 향상.
모델MBPPHumanEvalMATHGSM8KNQTriviaQA평균
Base-1B4.603.042.421.446.6126.727.47
BTX12.4011.586.747.736.7825.1011.72
Dare14.2010.986.827.966.5030.6812.86
Ties14.2011.986.747.816.7227.6612.52

👉 결과 해석

  • BTX보다 Dare, Ties 기법이 평균 성능 6~10% 향상.
  • 특히 Dare 병합 방식이 가장 높은 성능을 보임.

4.2 이질적인 아키텍처(Heterogeneous) 병합 성능 비교

모델MBPPHumanEvalMATHGSM8KNQTriviaQA평균
Base-1B4.603.042.421.446.6126.727.47
Base-TinyLlama5.405.272.262.208.5334.279.66
MergeME (TinyLlama)15.8011.595.426.298.2532.7113.34

👉 결과 해석

  • 이질적인 아키텍처도 병합 가능하며, 성능 유지 가능.
  • MergeME 방식은 기존 개별 모델보다 30% 이상 성능 향상.

5. 결론 및 향후 연구 방향

5.1 결론

  • MergeME는 기존 MoE 병합 기법의 한계를 극복한 새로운 기법.
  • Dare, Ties 방식으로 동일한 아키텍처 전문가 모델을 효과적으로 병합.
  • Projector 기반 방식으로 다른 구조의 전문가도 병합 가능.
  • 기존 MoE보다 성능이 향상되었으며, 추가 미세 조정 없이도 높은 성능 유지 가능.

5.2 향후 연구

  • 더 큰 모델(예: 7B, 13B)에서 MergeME의 성능 검증.
  • 멀티모달 MoE(이미지, 오디오 포함) 병합 연구.
  • 이질적 전문가 간 라우팅 최적화 추가 연구.

📌 요약

MergeME는 기존 MoE 병합 방식의 한계를 극복한 새로운 기법으로,

  • *동일한 아키텍처(Homogeneous)에서는 Dare, Ties 방식을 활용해 성능 저하 없이 전문가 모델을 병합**.
  • 다른 아키텍처(Heterogeneous) 모델도 Projector 기법을 활용하여 병합 가능하도록 확장.
  • 기존 방법보다 6~10% 높은 성능을 기록하며, 추가 미세 조정 없이도 성능 유지 가능. 🚀
profile
NLP 공부합니당

0개의 댓글