[llama-cpp-python] GPU와 함께 사용하기

황준하·2024년 7월 18일

해당 패키지를 이용해 koBllossom 70B 모델의 gguf파일을 불러와서 inference를 진행하였는데, CPU로만 작업을 하는 것을 발견했다.

해결 방법

패키지 자체를 GPU를 지원하는 버전으로 새로 설치해야 한다고 한다.
많은 시행 착오를 거치고 다음과 같이 다운그레이드와 Pre-built wheel을 쓰니 GPU에 모델이 정상적으로 올라가는 것을 확인했다!

  • 사용 GPU : A100X

  • CUDA version : 12.5

pip install --no-cache-dir llama-cpp-python==0.2.77 --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu124
model = Llama(
    model_path='/data/tako/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf',
    n_ctx=1024,
    n_gpu_layers=-1,        # Number of model layers to offload to 
    verbose=True, 
)



Ref

1개의 댓글

comment-user-thumbnail
2025년 3월 3일

덕분에 해결됐네요

답글 달기