DEMIX Layers: Disentangling Domains for Modular Language Modeling

하임·2026년 1월 9일

MoE

목록 보기

13/14

https://arxiv.org/pdf/2108.05036

1. 논문 핵심 아이디어 및 목적

기존 LLM 문제점
- 기존의 Dense Training(모든 데이터/도메인을 하나로 모아 전체 파라미터를 업데이트) 방식은, ① 도메인별 세분화·적응성 부족 ② 새로운 도메인 적응시 잊힘(catastrophic forgetting) ③ 원하지 않는 도메인(예: 혐오발언, 저작권 등) 제거·제한이 어려움 등의 문제가 있습니다.
DEMIX Layers 제안
- Feedforward(FFN) 네트워크 부분을 도메인별 Expert로 분리
- 각 도메인마다 Expert FFN을 두고, 학습시 입력 텍스트의 provenance(데이터 출처, 즉 도메인) 정보로 routing
- 추론 시, 도메인별 expert를 자유롭게 mix/add/remove 할 수 있는 모듈형 LLM 구조를 만듦

2. DEMIX 구조 및 학습 방식

2.1 DEMIX Layer 구조

Transformer의 각 FFN 레이어를 도메인별 Expert 집합(예: 8개 도메인 → 8개 Expert)으로 교체
각 Expert는 자신의 도메인 데이터만 사용해서 독립적으로 학습
라우팅:
- 학습 시, 각 문서에 도메인 라벨을 붙여 해당 도메인 Expert만 활성화(나머지는 mask)
- 기존 Mixture-of-Experts(MoE)는 토큰 단위 라우팅+로드밸런싱 필요, DEMIX는 도메인 단위로 훨씬 간단

2.2 학습 방식

GPU를 도메인별로 분할(예: 8개 도메인, 8개 Expert → 도메인별로 GPU 할당)
각 도메인 미니배치는 해당 Expert로만 업데이트
전체 파라미터 수는 DENSE 모델보다 많지만, 파라미터 동기화 비용은 Expert 당만 이루어져 latency↓, throughput↑
Domain balancing(도메인별 데이터 양을 균등하게 맞춤)도 함께 실험함

3. 주요 실험

3.1 데이터셋

8개 주요 도메인(NewsWire, CS Papers, Legal, Medical, WebText, RealNews, Reddit, Reviews)
8개 Novel 도메인(ACL Papers, Breaking News, Contracts, CORD-19, Github, Gutenberg, Tweets, Yelp Reviews)

3.2 주요 비교 Baseline

DENSE: 모든 데이터로 전체 파라미터 업데이트
+DOMAIN-TOKEN: 입력에 도메인 정보를 토큰으로 삽입
DEMIX (naive): DEMIX 구조, 도메인 정보가 주어졌을 때 해당 Expert만 사용
DEMIX (mixture): 테스트 시 도메인 모를 때, 각 Expert 출력을 확률적으로 조합(Weighted Ensemble)

4. 주요 결과 요약

4.1 In-domain(학습 도메인) 성능

DEMIX는 각 도메인에 대해 더 낮은 perplexity(더 좋은 성능)를 달성
도메인 정보가 추가될수록(DEMIX, DOMAIN-TOKEN) DENSE 대비 성능 개선(특히 작은 모델에서 효과 큼)
도메인별 Expert는 해당 도메인에 대해 가장 잘 작동 (전이 불량 도메인: 1B, MED; 전이 잘되는 도메인: WEBTEXT, REALNEWS 등)

4.2 Out-of-domain(미학습/새로운 도메인) 성능

DEMIX를 Hard Routing(naive)으로만 쓰면 오히려 성능 저하될 수 있음
Mixture 방식(Weighted Ensemble, 확률 기반 조합)이 효과적:
- 도메인 분포를 베이즈 정리로 추론해 expert별 가중치 조합
- 특히 domain mixture prior를 test set에서 미리 추정(cached prior)하면 best 성능
소규모 DEMIX가 대형 DENSE 모델보다 novel 도메인에서 더 좋은 결과도 가능

4.3 Domain Adaptation(새 도메인 적응)

DEMIX-DAPT: 기존 DEMIX 모델에 새 Expert를 추가, 다른 파라미터는 freeze → 기존 지식 유지하며 적응
기존 Dense DAPT는 새로운 도메인에 잘 적응하지만, 원래 도메인 성능이 빠르게 감소(catastrophic forgetting)
DEMIX-DAPT는 forgetting 현상 없이, 기존 도메인 성능을 유지하며 새 도메인에 빠르게 적응 가능

4.4 Domain Removal(도메인 제거)

특정 도메인 Expert를 끄면, 해당 도메인에서 성능이 급격히 하락(거의 학습 안 한 모델과 유사)
즉, 불필요하거나 위험한 도메인을 inference 단계에서 동적으로 제외 가능

5. 추가 논의 및 의의

DEMIX는 멀티도메인·멀티테넌트 LLM을 만들기 위한 새로운 방법론으로,
- 도메인별로 모듈화된 파라미터 관리
- 도메인 적응/제거 등 실시간 제어 가능
- catastrophic forgetting 없는 continual learning 실현
Practical하게, 대규모 모델에서 각 도메인만 빠르게 업데이트/제거할 수 있는 장점
향후 자동 도메인 클러스터링, 토큰-도메인 결합 라우팅 등 다양한 확장 가능성 제시

6. 한 줄 요약

DEMIX Layers는 LLM의 Feedforward 부분을 도메인별로 분리해, 도메인에 맞는 Expert만 선택·조합·추가·제거할 수 있게 하여, 모듈성·적응성·보안성을 크게 높인 새로운 멀티도메인 LLM 구조입니다.

NLP 공부합니당

이전 포스트

FLEXOLMO

다음 포스트

SliceMoE:Routing Embedding Slices Instead of Tokens for Fine-Grained and Balanced Transformer Scaling

0개의 댓글