-
vLLM과 sgLang은 LLM 모델 추론/서빙 프레임워크
-
vLLM은 pagedAttention이라는 기능과 Dynamic Batching이라는 기술이 핵심적인 기능
- pagedAttention: 메모리 최적화에 유용 (K-V 캐싱)
- Dynamic Batching: 동적 배치로, 프롬프트 토큰 병렬 처리를 통한 메모리 최적화
- Tensor Paralleism: 여러 GPU에 모델 파라미터 분산 로드하여 대형 모델 서빙 가능
-
sgLang은 vLLM을 백엔드로 사용하여 기능 포함하면서도 모델 오케스트레이션 기능 지원
- 프롬프트 체이닝 지원: 여러 스텝에 걸친 에이전트 구성 시 사용하는 프롬프트 체이닝
- 멀티 모델 서빙: 여러 GPU에 여러 LLM 모델을 로드한 채로 프롬프트 체이닝 단계에서 원하는 모델을 사용한 호출
-
두 모델 모두 대규모 서비스에서 유용함. 하지만 각자 다른 느낌