MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging

하임·2026년 1월 9일

Merging

목록 보기

7/7

https://arxiv.org/pdf/2505.11883

논문 MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging의 주요 방법론과 전체 구조

1. 배경 및 문제의식

Continual Model Merging(CMM): 여러 개의 task별로 독립적으로 파인튜닝된 모델을, 원본 데이터에 접근하지 않고 순차적으로 병합하는 새로운 continual learning 패러다임.
기존 방법들은 파라미터 간섭(Interference), catastrophic forgetting(이전 task에 대한 성능 급락), 새로운 task test distribution 적응력 부족 등 한계를 가짐.

2. MINGLE의 핵심 아이디어

MINGLE은 CMM의 한계를 극복하기 위해 Test-Time Continual Model Merging(TTCMM)을 도입:

Test-time adaptation(TTA): 현재 task의 소량의 unlabeled test sample만 활용해서 병합을 동적으로 적응시킴.
Mixture-of-Experts(MoE) 구조: 각 task 별로 parameter-efficient low-rank expert와 gating function을 두어, 입력마다 적합한 expert를 동적으로 선택.
Null-Space Constrained Gating: 새로운 expert의 gate 업데이트를, 이전 task의 feature subspace(주로 활성화되던 부분)에 수직(orthogonal) 방향으로만 허용하여, 이전 task에 대한 간섭을 최소화.
Adaptive Relaxation Strategy: null-space constraint의 강도를 test-time interference 신호에 따라 동적으로 조절. 잔류 간섭을 줄이면서도 적응력(plasticity) 유지.

3. 상세 방법론

3.1 전체 파이프라인 및 세팅

여러 task별 파인튜닝 모델 {θ₁, ..., θ_T}이 pre-trained 모델 θ₀에서 독립적으로 파생됨.
각 병합 단계마다, 이전까지 병합된 모델과 새 task의 모델을 병합 → 최종적으로 전체 task에 대해 잘 작동하는 unified 모델 θ_merged_T 생성.

3가지 continual learning 패러다임 비교:

Conventional CL: 순차적 파인튜닝, 이전 데이터 필요.
CMM: 모델 병합만, 데이터 접근 없음.
TTCMM(MINGLE): 각 단계별로 현재 task의 seed test data(소량, unlabeled)를 활용해 동적으로 병합 조정.

3.2 MoE 기반 Low-Rank Experts

각 task마다 low-rank expert(f_t)와 gating function(g_t)을 backbone(예: CLIP의 linear layer)에 삽입.
새 task 도착 시,
- task vector(차이) Δθ_t = θ_t - θ₀을 이전 task 방향에 직교하도록(projection) 변환 후, rank-r SVD로 low-rank expert 생성.
- 수식:
  - f_t = BA = (ŨΣ̃)Ṽᵗ (SVD 결과)
  - gate: g_t(X) = W_tᵗ X + b_t
Gate는 test-time에 현재 task의 seed sample로 적응(fine-tuning)되고, 기존 expert/gate는 freeze.

3.3 Test-Time Adaptation (TTA)

현재 병합된 모델의 예측 분포와, 해당 task에서 개별적으로 fine-tune된 모델의 예측 분포 간 KL divergence 최소화:
- L_t = E_{x~D_seed^t} [KL(p(x; θ_merged_t) || p(x; θ_t))]
(CLIP 모델 기준) 이미지와 텍스트 임베딩 쌍을 softmax(logit)으로 비교, test data 기반으로 gate를 적응.

3.4 Null-Space Constrained Gating

파라미터 간섭 억제의 핵심 기법:

기본 원리: 새 gate 업데이트가 이전 task feature subspace(주로 사용된 방향)에 영향을 미치지 않도록 projection.
각 layer별로 seed buffer를 통해 activation covariance 추정 → top-k SVD subspace 획득 → 이를 basis로 null-space projector P 생성.
gate 파라미터의 gradient를 null-space projector로 투영:
- W_t ← W_t - η * P_{t-1} * ∇L_t
Adaptive Relaxation:
- 각 subspace 방향마다 interference(간섭) 강도를 EMA로 누적 측정.
- 간섭 강도에 따라 eigenvalue를 exp(-γ * S)로 soft shrinkage. (완전 억제 ↔ 완전 허용 사이 가변)
- projector가 hard/soft 중간 지점을 자유롭게 탐색하며 stability-plasticity trade-off 달성.

전체 알고리즘 요약 (Algorithm 1)

Pretrained model, fine-tuned models, 각 task별 seed data 입력
각 task별:
- low-rank expert SVD로 생성
- gate 삽입 및 초기화
- TTA를 통한 gate 적응 (null-space projection/relaxation 포함)
- dominant subspace 갱신
최종 병합 모델 산출

4. 실험 및 분석

Benchmarks: CLIP 기반 다양한 이미지 분류 태스크(8, 14, 20 task), 다양한 task 순서 실험.
지표: ACC(평균 정확도), BWT(Backward Transfer: catastrophic forgetting 정도).
비교 대상: SWA, Task Arithmetic, OPCM, MAGMAX 등 기존 병합 방식들.

주요 성과

성능: 기존 CMM 및 CL 방법 대비 평균 7~9% 정확도 향상, forgetting 거의 없음(BWT ≈ 0).
Distribution shift: corruption test set, noise, blur 등 robust.
Ablation: 각 구성요소가 실제로 stability-plasticity 모두에 크게 기여.

효율성

LoRA 기반이므로 파라미터 수, TTA 시간 효율적 (최적화된 layer/랭크 조합).
seed sample 수가 매우 적어도 강한 성능(1개만 있어도 robust).

5. 결론 및 의의

MINGLE은 데이터 접근 없이 지속적으로 독립 파인튜닝 모델을 병합하며, test-time adaptation과 MoE, null-space gating, adaptive relaxation을 결합해 성능 저하 없이 강한 적응력, 낮은 forgetting을 동시에 달성.
실제 배포 환경, 프라이버시 요구, 대규모 분산 학습 환경에 적합한 혁신적인 CMM 프레임워크 제시.

그림 요약

Figure 2: 세 가지 continual learning 패러다임(순차 파인튜닝 vs. CMM vs. TTCMM)
Figure 3/4: gate activation, null-space 하이퍼파라미터 변화별 성능 그래프
Figure 5: seed sample 수별 성능

참고 수식/코드

Low-rank expert 생성: f_t = SVD(P_{t-1}(θ_t - θ_0))
Gate 업데이트: W_t ← W_t - η * (null-space projector) * gradient
TTA Loss: L_t = E_{x~D_seed^t} [KL(p(x; θ_merged_t) || p(x; θ_t))]

하임

NLP 공부합니당

이전 포스트