sgLang과 vLLM 간단한 개념

thon·2025년 10월 27일

25.10.27

간단 요약

  1. vLLM과 sgLang은 LLM 모델 추론/서빙 프레임워크

  2. vLLM은 pagedAttention이라는 기능과 Dynamic Batching이라는 기술이 핵심적인 기능

    • pagedAttention: 메모리 최적화에 유용 (K-V 캐싱)
    • Dynamic Batching: 동적 배치로, 프롬프트 토큰 병렬 처리를 통한 메모리 최적화
    • Tensor Paralleism: 여러 GPU에 모델 파라미터 분산 로드하여 대형 모델 서빙 가능
  3. sgLang은 vLLM을 백엔드로 사용하여 기능 포함하면서도 모델 오케스트레이션 기능 지원

    • 프롬프트 체이닝 지원: 여러 스텝에 걸친 에이전트 구성 시 사용하는 프롬프트 체이닝
    • 멀티 모델 서빙: 여러 GPU에 여러 LLM 모델을 로드한 채로 프롬프트 체이닝 단계에서 원하는 모델을 사용한 호출
  4. 두 모델 모두 대규모 서비스에서 유용함. 하지만 각자 다른 느낌

0개의 댓글