CUDA_VISIBLE_DEVICES=0
--gpu-memory-utilization=0.8
여러 프로세스가 같은 GPU의 메모리를 동시에 나눠 쓰는 상태
# GPU 0
LLM: CUDA_VISIBLE_DEVICES=0 --gpu-memory-utilization=0.7
LLM2: CUDA_VISIBLE_DEVICES=0 --gpu-memory-utilization=0.6
→ CUDA_VISIBLE_DEVICES로 분리했어도, 물리적으로 같은 GPU라면 충돌 발생
| 항목 | 설명 |
|---|---|
| GPU당 인스턴스 수 제한 | CUDA_VISIBLE_DEVICES로 명확히 분리 |
| 각 GPU에서 memory-utilization 총합 ≤ 1.0 | 충돌 방지 핵심 |
tensor-parallel-size 사용 | 여러 GPU에 분산할 때 필요 |
nvidia-smi, gpustat 모니터링 | 실시간 메모리 사용 상태 확인 |