MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging

하임·2026년 1월 9일

Merging

목록 보기
7/7

https://arxiv.org/pdf/2505.11883

논문 MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging의 주요 방법론과 전체 구조


1. 배경 및 문제의식

  • Continual Model Merging(CMM): 여러 개의 task별로 독립적으로 파인튜닝된 모델을, 원본 데이터에 접근하지 않고 순차적으로 병합하는 새로운 continual learning 패러다임.
  • 기존 방법들은 파라미터 간섭(Interference), catastrophic forgetting(이전 task에 대한 성능 급락), 새로운 task test distribution 적응력 부족 등 한계를 가짐.

2. MINGLE의 핵심 아이디어

MINGLE은 CMM의 한계를 극복하기 위해 Test-Time Continual Model Merging(TTCMM)을 도입:

  • Test-time adaptation(TTA): 현재 task의 소량의 unlabeled test sample만 활용해서 병합을 동적으로 적응시킴.
  • Mixture-of-Experts(MoE) 구조: 각 task 별로 parameter-efficient low-rank expertgating function을 두어, 입력마다 적합한 expert를 동적으로 선택.
  • Null-Space Constrained Gating: 새로운 expert의 gate 업데이트를, 이전 task의 feature subspace(주로 활성화되던 부분)에 수직(orthogonal) 방향으로만 허용하여, 이전 task에 대한 간섭을 최소화.
  • Adaptive Relaxation Strategy: null-space constraint의 강도를 test-time interference 신호에 따라 동적으로 조절. 잔류 간섭을 줄이면서도 적응력(plasticity) 유지.

3. 상세 방법론

3.1 전체 파이프라인 및 세팅

  • 여러 task별 파인튜닝 모델 {θ₁, ..., θ_T}이 pre-trained 모델 θ₀에서 독립적으로 파생됨.
  • 각 병합 단계마다, 이전까지 병합된 모델과 새 task의 모델을 병합 → 최종적으로 전체 task에 대해 잘 작동하는 unified 모델 θ_merged_T 생성.

3가지 continual learning 패러다임 비교:

  • Conventional CL: 순차적 파인튜닝, 이전 데이터 필요.
  • CMM: 모델 병합만, 데이터 접근 없음.
  • TTCMM(MINGLE): 각 단계별로 현재 task의 seed test data(소량, unlabeled)를 활용해 동적으로 병합 조정.

3.2 MoE 기반 Low-Rank Experts

  • 각 task마다 low-rank expert(f_t)와 gating function(g_t)을 backbone(예: CLIP의 linear layer)에 삽입.
  • 새 task 도착 시,
    • task vector(차이) Δθ_t = θ_t - θ₀이전 task 방향에 직교하도록(projection) 변환 후, rank-r SVD로 low-rank expert 생성.
    • 수식:
      • f_t = BA = (ŨΣ̃)Ṽᵗ (SVD 결과)
      • gate: g_t(X) = W_tᵗ X + b_t
  • Gate는 test-time에 현재 task의 seed sample로 적응(fine-tuning)되고, 기존 expert/gate는 freeze.

3.3 Test-Time Adaptation (TTA)

  • 현재 병합된 모델의 예측 분포와, 해당 task에서 개별적으로 fine-tune된 모델의 예측 분포 간 KL divergence 최소화:
    • L_t = E_{x~D_seed^t} [KL(p(x; θ_merged_t) || p(x; θ_t))]
  • (CLIP 모델 기준) 이미지와 텍스트 임베딩 쌍을 softmax(logit)으로 비교, test data 기반으로 gate를 적응.

3.4 Null-Space Constrained Gating

파라미터 간섭 억제의 핵심 기법:

  • 기본 원리: 새 gate 업데이트가 이전 task feature subspace(주로 사용된 방향)에 영향을 미치지 않도록 projection.
  • 각 layer별로 seed buffer를 통해 activation covariance 추정 → top-k SVD subspace 획득 → 이를 basis로 null-space projector P 생성.
  • gate 파라미터의 gradient를 null-space projector로 투영:
    • W_t ← W_t - η * P_{t-1} * ∇L_t
  • Adaptive Relaxation:
    • 각 subspace 방향마다 interference(간섭) 강도를 EMA로 누적 측정.
    • 간섭 강도에 따라 eigenvalue를 exp(-γ * S)로 soft shrinkage. (완전 억제 ↔ 완전 허용 사이 가변)
    • projector가 hard/soft 중간 지점을 자유롭게 탐색하며 stability-plasticity trade-off 달성.

전체 알고리즘 요약 (Algorithm 1)

  1. Pretrained model, fine-tuned models, 각 task별 seed data 입력
  2. 각 task별:
    • low-rank expert SVD로 생성
    • gate 삽입 및 초기화
    • TTA를 통한 gate 적응 (null-space projection/relaxation 포함)
    • dominant subspace 갱신
  3. 최종 병합 모델 산출

4. 실험 및 분석

  • Benchmarks: CLIP 기반 다양한 이미지 분류 태스크(8, 14, 20 task), 다양한 task 순서 실험.
  • 지표: ACC(평균 정확도), BWT(Backward Transfer: catastrophic forgetting 정도).
  • 비교 대상: SWA, Task Arithmetic, OPCM, MAGMAX 등 기존 병합 방식들.

주요 성과

  • 성능: 기존 CMM 및 CL 방법 대비 평균 7~9% 정확도 향상, forgetting 거의 없음(BWT ≈ 0).
  • Distribution shift: corruption test set, noise, blur 등 robust.
  • Ablation: 각 구성요소가 실제로 stability-plasticity 모두에 크게 기여.

효율성

  • LoRA 기반이므로 파라미터 수, TTA 시간 효율적 (최적화된 layer/랭크 조합).
  • seed sample 수가 매우 적어도 강한 성능(1개만 있어도 robust).

5. 결론 및 의의

  • MINGLE데이터 접근 없이 지속적으로 독립 파인튜닝 모델을 병합하며, test-time adaptation과 MoE, null-space gating, adaptive relaxation을 결합해 성능 저하 없이 강한 적응력, 낮은 forgetting을 동시에 달성.
  • 실제 배포 환경, 프라이버시 요구, 대규모 분산 학습 환경에 적합한 혁신적인 CMM 프레임워크 제시.

그림 요약

  • Figure 2: 세 가지 continual learning 패러다임(순차 파인튜닝 vs. CMM vs. TTCMM)
  • Figure 3/4: gate activation, null-space 하이퍼파라미터 변화별 성능 그래프
  • Figure 5: seed sample 수별 성능

참고 수식/코드

  • Low-rank expert 생성: f_t = SVD(P_{t-1}(θ_t - θ_0))
  • Gate 업데이트: W_t ← W_t - η * (null-space projector) * gradient
  • TTA Loss: L_t = E_{x~D_seed^t} [KL(p(x; θ_merged_t) || p(x; θ_t))]

profile
NLP 공부합니당

0개의 댓글