[LLM] 로컬 vLLM 설치

bbbbbhyun·2026년 6월 12일

DevOps & Cloud

목록 보기
30/30

window 기준 ollama + qwen2.5 설치 가이드

  1. Ollama 윈도우 설치 파일 다운로드
    https://ollama.com/ 접속 -> Download for Windows를 클릭 -> OllamaSetup.exe를 다운로드

  2. Phi-3-mini-4K-Instruct GGUF 모델 파일 다운로드

  1. Ollama 설치
  • OllamaSetup.exe를 실행
  • 설치가 끝나면 윈도우 우측 하단 작업 표시줄 트레이 아이콘에 라마 모양(Ollama)이 실행 중인지 확인
  1. 모델 파일 배치 및 Modelfile 작성
  • D:\ 드라이브 아래에 qwen라는 폴더를 생성하고 반입한 Phi-3-mini-4k-instruct-q4.gguf 파일
  • 최종 경로 예시: D:\qwen\qwen2.5-coder-7b-instruct-q4_k_m.gguf"
# D:\qwen\Modelfile

FROM "D:\pwen\qwen2.5-coder-7b-instruct-q4_k_m.gguf""

# Qwen 2.5 공식 ChatML 프롬프트 템플릿 및 Tool Calling 대응 설정
TEMPLATE """{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{- end }}
{{- range .Messages }}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{- else if eq .Role "assistant" }}<|im_start|>assistant
{{ .Content }}<|im_end|>
{{- end }}
{{- end }}<|im_start|>assistant
"""

# 모델이 스스로 멈춰야 할 특수 토큰 지정
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"

# 컨텍스트 크기를 4096에서 32,768 토큰으로 확장
PARAMETER num_ctx 32768
  1. 로컬 모델 빌드 및 실행
cd D:\qwen
ollama create qwen-coder -f ./Modelfile
ollama run qwen-coder

Claude Code 실행 및 연계

node.js 설치되었다는 기준으로 진행

  1. Claude Code 오프라인 설치
npm install -g @anthropic-ai/claude-code
  1. Claude API 엔드포인트를 로컬 LLM으로 우회 연동
:: Claude 설정 파일이 기존 외부 로그인 정보와 충돌하지 않도록 가상 경로 지정
set CLAUDE_CONFIG_DIR=C:\qwen\.claude-ollama

:: API Key는 비워두거나 더미값 세팅
set ANTHROPIC_API_KEY=local-bypass

:: Ollama의 Anthropic 호환 규격 통과를 위한 Bearer 토큰 강제 지정 (중요)
set ANTHROPIC_AUTH_TOKEN=ollama

:: 로컬 Ollama 엔드포인트 지정
set ANTHROPIC_BASE_URL=http://localhost:11434
  1. Claude Code 실행 및 연계
claude --mode qwen-coder
profile
BackEnd developer

0개의 댓글