[vLLM] CUDA_VISIBLE_DEVICES, gpu-memory-utilization, 물리적 메모리 공유 관계

류지수·2025년 6월 26일

CUDA_VISIBLE_DEVICES=0

--gpu-memory-utilization=0.8

여러 프로세스가 같은 GPU의 메모리를 동시에 나눠 쓰는 상태

# GPU 0
LLM:    CUDA_VISIBLE_DEVICES=0  --gpu-memory-utilization=0.7
LLM2:   CUDA_VISIBLE_DEVICES=0  --gpu-memory-utilization=0.6

→ CUDA_VISIBLE_DEVICES로 분리했어도, 물리적으로 같은 GPU라면 충돌 발생

항목	설명
GPU당 인스턴스 수 제한	`CUDA_VISIBLE_DEVICES`로 명확히 분리
각 GPU에서 memory-utilization 총합 ≤ 1.0	충돌 방지 핵심
`tensor-parallel-size` 사용	여러 GPU에 분산할 때 필요
`nvidia-smi`, `gpustat` 모니터링	실시간 메모리 사용 상태 확인

끄적끄적