[llama-cpp-python] GPU와 함께 사용하기

황준하·2024년 7월 18일

해당 패키지를 이용해 koBllossom 70B 모델의 gguf파일을 불러와서 inference를 진행하였는데, CPU로만 작업을 하는 것을 발견했다.

해결 방법

패키지 자체를 GPU를 지원하는 버전으로 새로 설치해야 한다고 한다.
많은 시행 착오를 거치고 다음과 같이 다운그레이드와 Pre-built wheel을 쓰니 GPU에 모델이 정상적으로 올라가는 것을 확인했다!

사용 GPU : A100X
CUDA version : 12.5

pip install --no-cache-dir llama-cpp-python==0.2.77 --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124

model = Llama(
    model_path='/data/tako/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf',
    n_ctx=1024,
    n_gpu_layers=-1,        # Number of model layers to offload to 
    verbose=True, 
)

Ref

공식 github : https://github.com/abetlen/llama-cpp-python
이슈 : https://github.com/abetlen/llama-cpp-python/issues/1535#issuecomment-2175924951

황준하

이전 포스트

safetensor 모델 파일 load

다음 포스트

[ubuntu] 파이썬 버전 바꾸기 & python-venv 다른 파이썬 버전 만들기

1개의 댓글

대마법사하인즈

2025년 3월 3일

덕분에 해결됐네요

답글 달기