vLLM 프레임워크 버전 호환성 및 서빙 예시

Cafelatte·2025년 1월 11일

RAG

목록 보기
2/2

vLLM 버전 호환성 정리

  • vLLM 0.5.3.post1 버전에서 Gemma2 모델 띄울 시 flashinfer 라이브러리 필요 필요
vLLMPyTorchflashinfer
0.5.3.post12.3.10.1.2+cu121torch2.3
0.6.3.post12.4.10.1.2+cu121torch2.4
0.6.6.post12.5.10.1.6+cu121torch2.4

설치 예시

#!/bin/sh

# vllm 라이브러리 설치 (0.6.6.post1)
pip install vllm==0.6.6.post1
# cuda버전에 맞게 pytorch 라이브러리 재설치
pip install torch==2.5.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 --force-reinstall
# 추가 의존성 라이브러리 설치
pip install -U typing-extensions filelock
# flashinfer 라이브러리 설치 (torch 버전이 맞지 않아도 구동함)
pip install flashinfer==0.1.6 -i https://flashinfer.ai/whl/cu121/torch2.4/

서빙 예시 (feat. 8bit Quantization)

  • run_vllm.sh 스크립트 작성
#!/bin/sh

## 0.5.3.post1 버전에서 Gemma2 모델 띄울 시 아래 환경변수 설정 필요
# export VLLM_ATTENTION_BACKEND=FLASHINFER
# export VLLM_FLASHINFER_FORCE_TENSOR_CORES=1

vllm serve LLM_MODEL_PATH \
    --load-format auto --enforce-eager --trust-remote-code \
    --quantization fp8 --dtype auto \
    --max-model-len 512 --gpu-memory-utilization 0.95 \
    --seed 42
  • 스크립트를 실행하여 서빙
sh run_vllm.sh
profile
바로 활용 가능한 정보 공유를 목적으로 합니다

0개의 댓글