vLLM 프레임워크 버전 호환성 및 서빙 예시

Cafelatte·2025년 1월 11일

LLM NLP PyTorch cuda flashinfer python rag vLLM

RAG

목록 보기

2/2

vLLM 버전 호환성 정리

vLLM 0.5.3.post1 버전에서 Gemma2 모델 띄울 시 flashinfer 라이브러리 필요 필요

vLLM	PyTorch	flashinfer
0.5.3.post1	2.3.1	0.1.2+cu121torch2.3
0.6.3.post1	2.4.1	0.1.2+cu121torch2.4
0.6.6.post1	2.5.1	0.1.6+cu121torch2.4

설치 예시

#!/bin/sh

# vllm 라이브러리 설치 (0.6.6.post1)
pip install vllm==0.6.6.post1
# cuda버전에 맞게 pytorch 라이브러리 재설치
pip install torch==2.5.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 --force-reinstall
# 추가 의존성 라이브러리 설치
pip install -U typing-extensions filelock
# flashinfer 라이브러리 설치 (torch 버전이 맞지 않아도 구동함)
pip install flashinfer==0.1.6 -i https://flashinfer.ai/whl/cu121/torch2.4/

서빙 예시 (feat. 8bit Quantization)

run_vllm.sh 스크립트 작성

#!/bin/sh

## 0.5.3.post1 버전에서 Gemma2 모델 띄울 시 아래 환경변수 설정 필요
# export VLLM_ATTENTION_BACKEND=FLASHINFER
# export VLLM_FLASHINFER_FORCE_TENSOR_CORES=1

vllm serve LLM_MODEL_PATH \
    --load-format auto --enforce-eager --trust-remote-code \
    --quantization fp8 --dtype auto \
    --max-model-len 512 --gpu-memory-utilization 0.95 \
    --seed 42

스크립트를 실행하여 서빙

sh run_vllm.sh

Cafelatte

바로 활용 가능한 정보 공유를 목적으로 합니다

이전 포스트

vLLM 프레임워크 버전 호환성 및 서빙 예시

RAG

vLLM 버전 호환성 정리

설치 예시

서빙 예시 (feat. 8bit Quantization)

임베딩 및 생성 모델 토큰 수 추정치 테스트

0개의 댓글