일반 PC에서 DeepSeek 돌려보기: DeepSeek-R1 Distill 모델 활용

나이트 개발자·2025년 2월 6일
post-thumbnail

최근 DeepSeek에서 공개한 DeepSeek-R1 모델은 뛰어난 성능으로 주목받고 있다. 하지만 큰 모델 사이즈 때문에 일반 PC 환경에서 구동하기 어렵다는 문제가 있다. 다행히 DeepSeek는 Distill 버전 모델을 함께 공개하여, 비교적 낮은 사양의 PC에서도 DeepSeek을 경험할 수 있고 unsloth를 이용하면 더 작은 메모리 유구사항으로 모델을 띄워볼 수도 있다.

무료 모델을 띄워 보는 것에 관심을 가져야 하는 이유는 System에 통합하기 위해서는 동작하는 LLM이 있어야 하기 때문이다. chatgpt를 사용하던, 각종 SaaS형태의 LLM을 사용해야 하는데,

제공된 표의 내용을 팩트 체크하고 unsloth의 모델 정보를 참고하여 수정한 결과는 다음과 같습니다:

DeepSeek-R1 Distill 모델별 VRAM 요구사항:

모델파라미터최소 VRAM 요구사항권장 GPU
DeepSeek-R1-Distill-Qwen-1.5B1.5B~3.5 GBNVIDIA RTX 3060 12GB 이상
DeepSeek-R1-Distill-Qwen-7B7B~16 GBNVIDIA RTX 4080 16GB 이상
DeepSeek-R1-Distill-Llama-8B8B~18 GBNVIDIA RTX 4080 16GB 이상
DeepSeek-R1-Distill-Qwen-14B14B~32 GBNVIDIA RTX 4090 24GB 이상
DeepSeek-R1-Distill-Qwen-32B32B~74 GBMulti-GPU 설정 (예: NVIDIA RTX 4090 x4)
DeepSeek-R1-Distill-Llama-70B70B~161 GBMulti-GPU 설정 (예: NVIDIA A100 80GB x2)

unsloth의 4비트 양자화 모델 VRAM 요구사항:

모델4비트 양자화 시 VRAM 요구사항권장 GPU
DeepSeek-R1-Distill-Qwen-1.5B~1.8 GBNVIDIA RTX 3050 8GB 이상
DeepSeek-R1-Distill-Qwen-7B~5.5 GBNVIDIA RTX 3060 12GB 이상
DeepSeek-R1-Distill-Llama-8B정확한 정보 없음NVIDIA RTX 3060 12GB 이상
DeepSeek-R1-Distill-Qwen-14B~13.9 GBNVIDIA RTX 4080 16GB 이상
DeepSeek-R1-Distill-Qwen-32B정확한 정보 없음NVIDIA RTX 4090 24GB 이상
DeepSeek-R1-Distill-Llama-70B~39.7 GBNVIDIA RTX 4090 24GB x2

위 표에서 확인할 수 있듯이, DeepSeek-R1-Distill-Qwen-1.5B 모델은 4비트 양자화를 통해 2GB의 VRAM만으로도 구동 가능하다. 물론 보다 좋은 성능을 위해서는 충분한 메모리가 필요하지만 이런 점을 감안하면 웬만한 PC 환경에서도 DeepSeek을 체험해볼 수 있다.

간단한 서빙 예
RTX 2090 ti의 1 개 GPU에서 아래와 같은 명령어로 서빙이 가능하다. 메모리는 11GB를 꽉 채운다.

conda create --name llms python=3.11
pip install vllm
conda activate llms
pip install bitsandbytes
vllm serve unsloth/DeepSeek-R1-Distill-Qwen-7B-bnb-4bit \
    --load-format=bitsandbytes \
    --quantization=bitsandbytes \
    --max-model-len=4096 \
    --gpu-memory-utilization=0.99 \
    --enforce-eager \
    --host=127.0.0.1 \
    --port=19191 \
    --dtype=half
    
    
 curl http://127.0.0.1:19191/v1/chat/completions \                                        -H "Content-Type: application/json" \
  -d '{
        "model": "unsloth/DeepSeek-R1-Distill-Qwen-7B-bnb-4bit",
        "messages": [{"role": "user", "content": "Hello, how are you?"}],
        "max_tokens": 16
      }'

추천 방법: vLLM & LibreChat 활용

DeepSeek-R1 Distill 모델을 일반 PC에서 구동하기 위해 vLLM과 LibreChat을 사용하는 것을 추천한다. vLLM은 빠른 추론 속도를 제공하는 라이브러리이며, LibreChat은 vLLM을 활용하여 웹 인터페이스를 제공하는 오픈소스 프로젝트이다.

이 두 가지 도구를 함께 사용하면 별도의 코딩 없이도 웹 브라우저를 통해 DeepSeek과 대화할 수 있다. 자세한 설치 및 사용 방법은 각 프로젝트의 공식 문서를 참고하면 된다.

DeepSeek-R1 Distill 모델을 통해 일반 PC에서도 DeepSeek의 가능성을 엿볼 수 있다는 점이 흥미롭다. 앞으로 더 많은 최적화 기술이 개발되어 더 큰 모델을 더 쉽게 사용할 수 있게 되기를 기대한다.

profile
개발하면서 또는 프러덕 관리하면서 겪는 기억해둬야하는 내용을 메모장 삼아 남긴다. Google Keep이나 메모 도구에 남기는 것과는 달리 잘 정리할 수 있어서 언젠가 들춰봐야할 내용들을 담은 글들이 게시된다.

0개의 댓글