kubeflow cuda version 호환성에 대해

cloud2000·2024년 1월 1일
0

vt100

Nvidia V100 GPU와 cuda 11.0이 설치되어 있는 baremetal 장비에 k8s와 kubeflow를 설치하고 notebook을 생성할 때 cuda version 호환성 문제로 기동되지 않았다. 이를 해결하기 위해 여러가지 시도를 한 과정을 기록한다.

장비에 이미 설치된 Nvidia driver가 11.0인데 상기 docker image의 dockerfile을 살펴보던중 NVIDIA_REQUIRE_CUDA=cuda>=11.2 항목이 있어 container가 실행되지 않는 문제가 있었음.
이를 해결하기 위해 환경변수 NVIDIA_DISABLE_REQUIRE=1(실행시에 cuda 버전을 체크하지 않음)를 설정헤서 custom docker image를 생성함.

Dockerfile

FROM kubeflownotebookswg/jupyter-tensorflow-cuda-full:v1.6.0

ENV NVIDIA_DISABLE_REQUIRE true

참고

profile
클라우드쟁이

0개의 댓글