https://arxiv.org/pdf/2503.10325
🔍 논문 핵심 요약
🔸 1. 배경 (Speculative Inference란?)
- Speculative inference는 작은 모델(SSM, small speculative model)을 이용해 LLM의 추론 속도를 높이기 위한 기법입니다.
- 작은 모델이 먼저 예측한 draft tokens을 만들고, 이후 LLM이 검증(verification)을 통해 이를 수용하거나 거절합니다.
- 이 과정은 GPT, LLaMA 등의 모델의 autogressive decoding 특성을 활용하며, 추론 속도를 대폭 향상시킬 수 있습니다.
🔸 2. 문제점
- 비효율적인 자원 사용
- SSM은 메모리 대역폭이 중요하고, LLM은 계산 성능이 중요하여 자원 요구 특성이 다릅니다.
- 둘을 동일한 GPU에서 실행하면 자원 충돌(resource contention)이 발생.
- 낮은 draft token 수용률
- SSM이 만든 draft가 LLM에서 거절되는 경우가 많아 효율 저하.
- 특히 복잡하거나 도메인 특화된 작업에서는 더욱 심각.
🔸 3. CoSine 시스템 제안
🔹 주요 아이디어
- Speculative decoding과 verification을 분리하여 서로 다른 노드에서 수행.
- 다양한 SSM들을 병렬로 활용하여 draft를 생성하고, 신뢰도 기반으로 token을 결합(token fusion).
- Adaptive speculation & pipeline orchestration을 통해 workload 변화에 동적으로 대응.
🔹 핵심 구성 요소
- Cooperative Generation Component
- 다양한 도메인에 특화된 SSM들 중, 요청에 맞는 drafter를 선택.
- 여러 drafter의 출력을 신뢰도 기반 토큰 융합(token fusion) 으로 통합.
- Collaborative Pipeline Component
- 요청 스케줄링, 배치 처리 및 자원 할당을 통해 추론 효율 극대화.
- draft generation과 verification 간의 리소스 밸런싱 최적화 수행.
🔸 4. 주요 기법
- Token Fusion: 여러 drafter의 출력 중 logit 확률이 가장 높은 token을 선택해 사용.
- Adaptive Request Routing: drafter의 도메인 적합도와 이전 수용률 기반으로 최적 drafter 선택.
- Dynamic Batch Scheduling: 요청의 길이와 시스템 부하에 따라 배치 크기 및 토큰 수 조정.
🔸 5. 실험 결과
- 비교 대상: vLLM, Vanilla Speculative, PipeInfer, SpecInfer 등 최신 시스템.
- 하드웨어: A100 서버 + RTX 2080Ti/3090 consumer GPU 혼합 클러스터.
- 결과:
- 최대 23.2% 지연 시간 감소, 32.5% 처리량 증가.
- 다양한 배치 크기에서 일관된 성능 유지.
- 온라인 환경에서도 고부하 상황에서 타 시스템보다 우수한 반응성.
🔸 6. Ablation Study
- Token fusion 제거 시: 수용률, 처리량 모두 하락.
- Request routing 제거 시: drafter 효율성 급감 → 무작위 배정의 한계.
- 병렬 drafter 수 증가 시: 최대 8개까지 성능 향상, 다만 token fusion 없을 경우 한계에 도달.
✨ 요약하자면
CoSine은 speculative inference의 효율성과 정확성 문제를 해결하기 위해 협업 기반 다중 노드 시스템을 도입합니다. SSM의 도메인 전문성과 LLM의 강력한 검증 능력을 분리 및 조율하여 성능, 지연 시간, 비용 측면 모두에서 우수한 성과를 보입니다.