
최근 DeepSeek에서 공개한 DeepSeek-R1 모델은 뛰어난 성능으로 주목받고 있다. 하지만 큰 모델 사이즈 때문에 일반 PC 환경에서 구동하기 어렵다는 문제가 있다. 다행히 DeepSeek는 Distill 버전 모델을 함께 공개하여, 비교적 낮은 사양의 PC에서도 DeepSeek을 경험할 수 있고 unsloth를 이용하면 더 작은 메모리 유구사항으로 모델을 띄워볼 수도 있다.
무료 모델을 띄워 보는 것에 관심을 가져야 하는 이유는 System에 통합하기 위해서는 동작하는 LLM이 있어야 하기 때문이다. chatgpt를 사용하던, 각종 SaaS형태의 LLM을 사용해야 하는데,
제공된 표의 내용을 팩트 체크하고 unsloth의 모델 정보를 참고하여 수정한 결과는 다음과 같습니다:
DeepSeek-R1 Distill 모델별 VRAM 요구사항:
| 모델 | 파라미터 | 최소 VRAM 요구사항 | 권장 GPU |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | ~3.5 GB | NVIDIA RTX 3060 12GB 이상 |
| DeepSeek-R1-Distill-Qwen-7B | 7B | ~16 GB | NVIDIA RTX 4080 16GB 이상 |
| DeepSeek-R1-Distill-Llama-8B | 8B | ~18 GB | NVIDIA RTX 4080 16GB 이상 |
| DeepSeek-R1-Distill-Qwen-14B | 14B | ~32 GB | NVIDIA RTX 4090 24GB 이상 |
| DeepSeek-R1-Distill-Qwen-32B | 32B | ~74 GB | Multi-GPU 설정 (예: NVIDIA RTX 4090 x4) |
| DeepSeek-R1-Distill-Llama-70B | 70B | ~161 GB | Multi-GPU 설정 (예: NVIDIA A100 80GB x2) |
unsloth의 4비트 양자화 모델 VRAM 요구사항:
| 모델 | 4비트 양자화 시 VRAM 요구사항 | 권장 GPU |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | ~1.8 GB | NVIDIA RTX 3050 8GB 이상 |
| DeepSeek-R1-Distill-Qwen-7B | ~5.5 GB | NVIDIA RTX 3060 12GB 이상 |
| DeepSeek-R1-Distill-Llama-8B | 정확한 정보 없음 | NVIDIA RTX 3060 12GB 이상 |
| DeepSeek-R1-Distill-Qwen-14B | ~13.9 GB | NVIDIA RTX 4080 16GB 이상 |
| DeepSeek-R1-Distill-Qwen-32B | 정확한 정보 없음 | NVIDIA RTX 4090 24GB 이상 |
| DeepSeek-R1-Distill-Llama-70B | ~39.7 GB | NVIDIA RTX 4090 24GB x2 |
위 표에서 확인할 수 있듯이, DeepSeek-R1-Distill-Qwen-1.5B 모델은 4비트 양자화를 통해 2GB의 VRAM만으로도 구동 가능하다. 물론 보다 좋은 성능을 위해서는 충분한 메모리가 필요하지만 이런 점을 감안하면 웬만한 PC 환경에서도 DeepSeek을 체험해볼 수 있다.
간단한 서빙 예
RTX 2090 ti의 1 개 GPU에서 아래와 같은 명령어로 서빙이 가능하다. 메모리는 11GB를 꽉 채운다.
conda create --name llms python=3.11
pip install vllm
conda activate llms
pip install bitsandbytes
vllm serve unsloth/DeepSeek-R1-Distill-Qwen-7B-bnb-4bit \
--load-format=bitsandbytes \
--quantization=bitsandbytes \
--max-model-len=4096 \
--gpu-memory-utilization=0.99 \
--enforce-eager \
--host=127.0.0.1 \
--port=19191 \
--dtype=half
curl http://127.0.0.1:19191/v1/chat/completions \ -H "Content-Type: application/json" \
-d '{
"model": "unsloth/DeepSeek-R1-Distill-Qwen-7B-bnb-4bit",
"messages": [{"role": "user", "content": "Hello, how are you?"}],
"max_tokens": 16
}'
추천 방법: vLLM & LibreChat 활용
DeepSeek-R1 Distill 모델을 일반 PC에서 구동하기 위해 vLLM과 LibreChat을 사용하는 것을 추천한다. vLLM은 빠른 추론 속도를 제공하는 라이브러리이며, LibreChat은 vLLM을 활용하여 웹 인터페이스를 제공하는 오픈소스 프로젝트이다.
이 두 가지 도구를 함께 사용하면 별도의 코딩 없이도 웹 브라우저를 통해 DeepSeek과 대화할 수 있다. 자세한 설치 및 사용 방법은 각 프로젝트의 공식 문서를 참고하면 된다.
DeepSeek-R1 Distill 모델을 통해 일반 PC에서도 DeepSeek의 가능성을 엿볼 수 있다는 점이 흥미롭다. 앞으로 더 많은 최적화 기술이 개발되어 더 큰 모델을 더 쉽게 사용할 수 있게 되기를 기대한다.