https://arxiv.org/pdf/2505.11883
논문 MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging의 주요 방법론과 전체 구조
1. 배경 및 문제의식
- Continual Model Merging(CMM): 여러 개의 task별로 독립적으로 파인튜닝된 모델을, 원본 데이터에 접근하지 않고 순차적으로 병합하는 새로운 continual learning 패러다임.
- 기존 방법들은 파라미터 간섭(Interference), catastrophic forgetting(이전 task에 대한 성능 급락), 새로운 task test distribution 적응력 부족 등 한계를 가짐.
2. MINGLE의 핵심 아이디어
MINGLE은 CMM의 한계를 극복하기 위해 Test-Time Continual Model Merging(TTCMM)을 도입:
- Test-time adaptation(TTA): 현재 task의 소량의 unlabeled test sample만 활용해서 병합을 동적으로 적응시킴.
- Mixture-of-Experts(MoE) 구조: 각 task 별로 parameter-efficient low-rank expert와 gating function을 두어, 입력마다 적합한 expert를 동적으로 선택.
- Null-Space Constrained Gating: 새로운 expert의 gate 업데이트를, 이전 task의 feature subspace(주로 활성화되던 부분)에 수직(orthogonal) 방향으로만 허용하여, 이전 task에 대한 간섭을 최소화.
- Adaptive Relaxation Strategy: null-space constraint의 강도를 test-time interference 신호에 따라 동적으로 조절. 잔류 간섭을 줄이면서도 적응력(plasticity) 유지.
3. 상세 방법론
3.1 전체 파이프라인 및 세팅
- 여러 task별 파인튜닝 모델
{θ₁, ..., θ_T}이 pre-trained 모델 θ₀에서 독립적으로 파생됨.
- 각 병합 단계마다, 이전까지 병합된 모델과 새 task의 모델을 병합 → 최종적으로 전체 task에 대해 잘 작동하는 unified 모델
θ_merged_T 생성.
3가지 continual learning 패러다임 비교:
- Conventional CL: 순차적 파인튜닝, 이전 데이터 필요.
- CMM: 모델 병합만, 데이터 접근 없음.
- TTCMM(MINGLE): 각 단계별로 현재 task의 seed test data(소량, unlabeled)를 활용해 동적으로 병합 조정.
3.2 MoE 기반 Low-Rank Experts
- 각 task마다 low-rank expert(
f_t)와 gating function(g_t)을 backbone(예: CLIP의 linear layer)에 삽입.
- 새 task 도착 시,
- task vector(차이)
Δθ_t = θ_t - θ₀을 이전 task 방향에 직교하도록(projection) 변환 후, rank-r SVD로 low-rank expert 생성.
- 수식:
f_t = BA = (ŨΣ̃)Ṽᵗ (SVD 결과)
- gate:
g_t(X) = W_tᵗ X + b_t
- Gate는 test-time에 현재 task의 seed sample로 적응(fine-tuning)되고, 기존 expert/gate는 freeze.
3.3 Test-Time Adaptation (TTA)
- 현재 병합된 모델의 예측 분포와, 해당 task에서 개별적으로 fine-tune된 모델의 예측 분포 간 KL divergence 최소화:
L_t = E_{x~D_seed^t} [KL(p(x; θ_merged_t) || p(x; θ_t))]
- (CLIP 모델 기준) 이미지와 텍스트 임베딩 쌍을 softmax(logit)으로 비교, test data 기반으로 gate를 적응.
3.4 Null-Space Constrained Gating
파라미터 간섭 억제의 핵심 기법:
- 기본 원리: 새 gate 업데이트가 이전 task feature subspace(주로 사용된 방향)에 영향을 미치지 않도록 projection.
- 각 layer별로 seed buffer를 통해 activation covariance 추정 → top-k SVD subspace 획득 → 이를 basis로 null-space projector
P 생성.
- gate 파라미터의 gradient를 null-space projector로 투영:
W_t ← W_t - η * P_{t-1} * ∇L_t
- Adaptive Relaxation:
- 각 subspace 방향마다 interference(간섭) 강도를 EMA로 누적 측정.
- 간섭 강도에 따라 eigenvalue를
exp(-γ * S)로 soft shrinkage. (완전 억제 ↔ 완전 허용 사이 가변)
- projector가 hard/soft 중간 지점을 자유롭게 탐색하며 stability-plasticity trade-off 달성.
전체 알고리즘 요약 (Algorithm 1)
- Pretrained model, fine-tuned models, 각 task별 seed data 입력
- 각 task별:
- low-rank expert SVD로 생성
- gate 삽입 및 초기화
- TTA를 통한 gate 적응 (null-space projection/relaxation 포함)
- dominant subspace 갱신
- 최종 병합 모델 산출
4. 실험 및 분석
- Benchmarks: CLIP 기반 다양한 이미지 분류 태스크(8, 14, 20 task), 다양한 task 순서 실험.
- 지표: ACC(평균 정확도), BWT(Backward Transfer: catastrophic forgetting 정도).
- 비교 대상: SWA, Task Arithmetic, OPCM, MAGMAX 등 기존 병합 방식들.
주요 성과
- 성능: 기존 CMM 및 CL 방법 대비 평균 7~9% 정확도 향상, forgetting 거의 없음(BWT ≈ 0).
- Distribution shift: corruption test set, noise, blur 등 robust.
- Ablation: 각 구성요소가 실제로 stability-plasticity 모두에 크게 기여.
효율성
- LoRA 기반이므로 파라미터 수, TTA 시간 효율적 (최적화된 layer/랭크 조합).
- seed sample 수가 매우 적어도 강한 성능(1개만 있어도 robust).
5. 결론 및 의의
- MINGLE은 데이터 접근 없이 지속적으로 독립 파인튜닝 모델을 병합하며, test-time adaptation과 MoE, null-space gating, adaptive relaxation을 결합해 성능 저하 없이 강한 적응력, 낮은 forgetting을 동시에 달성.
- 실제 배포 환경, 프라이버시 요구, 대규모 분산 학습 환경에 적합한 혁신적인 CMM 프레임워크 제시.
그림 요약
- Figure 2: 세 가지 continual learning 패러다임(순차 파인튜닝 vs. CMM vs. TTCMM)
- Figure 3/4: gate activation, null-space 하이퍼파라미터 변화별 성능 그래프
- Figure 5: seed sample 수별 성능
참고 수식/코드
- Low-rank expert 생성:
f_t = SVD(P_{t-1}(θ_t - θ_0))
- Gate 업데이트:
W_t ← W_t - η * (null-space projector) * gradient
- TTA Loss:
L_t = E_{x~D_seed^t} [KL(p(x; θ_merged_t) || p(x; θ_t))]