https://arxiv.org/pdf/2108.05036
1. 논문 핵심 아이디어 및 목적
- 기존 LLM 문제점
- 기존의 Dense Training(모든 데이터/도메인을 하나로 모아 전체 파라미터를 업데이트) 방식은, ① 도메인별 세분화·적응성 부족 ② 새로운 도메인 적응시 잊힘(catastrophic forgetting) ③ 원하지 않는 도메인(예: 혐오발언, 저작권 등) 제거·제한이 어려움 등의 문제가 있습니다.
- DEMIX Layers 제안
- Feedforward(FFN) 네트워크 부분을 도메인별 Expert로 분리
- 각 도메인마다 Expert FFN을 두고, 학습시 입력 텍스트의 provenance(데이터 출처, 즉 도메인) 정보로 routing
- 추론 시, 도메인별 expert를 자유롭게 mix/add/remove 할 수 있는 모듈형 LLM 구조를 만듦
2. DEMIX 구조 및 학습 방식
2.1 DEMIX Layer 구조
- Transformer의 각 FFN 레이어를 도메인별 Expert 집합(예: 8개 도메인 → 8개 Expert)으로 교체
- 각 Expert는 자신의 도메인 데이터만 사용해서 독립적으로 학습
- 라우팅:
- 학습 시, 각 문서에 도메인 라벨을 붙여 해당 도메인 Expert만 활성화(나머지는 mask)
- 기존 Mixture-of-Experts(MoE)는 토큰 단위 라우팅+로드밸런싱 필요, DEMIX는 도메인 단위로 훨씬 간단
2.2 학습 방식
- GPU를 도메인별로 분할(예: 8개 도메인, 8개 Expert → 도메인별로 GPU 할당)
- 각 도메인 미니배치는 해당 Expert로만 업데이트
- 전체 파라미터 수는 DENSE 모델보다 많지만, 파라미터 동기화 비용은 Expert 당만 이루어져 latency↓, throughput↑
- Domain balancing(도메인별 데이터 양을 균등하게 맞춤)도 함께 실험함
3. 주요 실험
3.1 데이터셋
- 8개 주요 도메인(NewsWire, CS Papers, Legal, Medical, WebText, RealNews, Reddit, Reviews)
- 8개 Novel 도메인(ACL Papers, Breaking News, Contracts, CORD-19, Github, Gutenberg, Tweets, Yelp Reviews)
3.2 주요 비교 Baseline
- DENSE: 모든 데이터로 전체 파라미터 업데이트
- +DOMAIN-TOKEN: 입력에 도메인 정보를 토큰으로 삽입
- DEMIX (naive): DEMIX 구조, 도메인 정보가 주어졌을 때 해당 Expert만 사용
- DEMIX (mixture): 테스트 시 도메인 모를 때, 각 Expert 출력을 확률적으로 조합(Weighted Ensemble)
4. 주요 결과 요약
4.1 In-domain(학습 도메인) 성능
- DEMIX는 각 도메인에 대해 더 낮은 perplexity(더 좋은 성능)를 달성
- 도메인 정보가 추가될수록(DEMIX, DOMAIN-TOKEN) DENSE 대비 성능 개선(특히 작은 모델에서 효과 큼)
- 도메인별 Expert는 해당 도메인에 대해 가장 잘 작동 (전이 불량 도메인: 1B, MED; 전이 잘되는 도메인: WEBTEXT, REALNEWS 등)
4.2 Out-of-domain(미학습/새로운 도메인) 성능
- DEMIX를 Hard Routing(naive)으로만 쓰면 오히려 성능 저하될 수 있음
- Mixture 방식(Weighted Ensemble, 확률 기반 조합)이 효과적:
- 도메인 분포를 베이즈 정리로 추론해 expert별 가중치 조합
- 특히 domain mixture prior를 test set에서 미리 추정(cached prior)하면 best 성능
- 소규모 DEMIX가 대형 DENSE 모델보다 novel 도메인에서 더 좋은 결과도 가능
4.3 Domain Adaptation(새 도메인 적응)
- DEMIX-DAPT: 기존 DEMIX 모델에 새 Expert를 추가, 다른 파라미터는 freeze → 기존 지식 유지하며 적응
- 기존 Dense DAPT는 새로운 도메인에 잘 적응하지만, 원래 도메인 성능이 빠르게 감소(catastrophic forgetting)
- DEMIX-DAPT는 forgetting 현상 없이, 기존 도메인 성능을 유지하며 새 도메인에 빠르게 적응 가능
4.4 Domain Removal(도메인 제거)
- 특정 도메인 Expert를 끄면, 해당 도메인에서 성능이 급격히 하락(거의 학습 안 한 모델과 유사)
- 즉, 불필요하거나 위험한 도메인을 inference 단계에서 동적으로 제외 가능
5. 추가 논의 및 의의
- DEMIX는 멀티도메인·멀티테넌트 LLM을 만들기 위한 새로운 방법론으로,
- 도메인별로 모듈화된 파라미터 관리
- 도메인 적응/제거 등 실시간 제어 가능
- catastrophic forgetting 없는 continual learning 실현
- Practical하게, 대규모 모델에서 각 도메인만 빠르게 업데이트/제거할 수 있는 장점
- 향후 자동 도메인 클러스터링, 토큰-도메인 결합 라우팅 등 다양한 확장 가능성 제시
6. 한 줄 요약
DEMIX Layers는 LLM의 Feedforward 부분을 도메인별로 분리해, 도메인에 맞는 Expert만 선택·조합·추가·제거할 수 있게 하여, 모듈성·적응성·보안성을 크게 높인 새로운 멀티도메인 LLM 구조입니다.