
Nvidia V100 GPU와 cuda 11.0이 설치되어 있는 baremetal 장비에 k8s와 kubeflow를 설치하고 notebook을 생성할 때 cuda version 호환성 문제로 기동되지 않았다. 이를 해결하기 위해 여러가지 시도를 한 과정을 기록한다.

Cuda 구성 요소

Kubeflow 공식 notebook 이미지
https://hub.docker.com/u/kubeflownotebookswg
장비에 이미 설치된 Nvidia driver가 11.0인데 상기 docker image의 dockerfile을 살펴보던중 NVIDIA_REQUIRE_CUDA=cuda>=11.2 항목이 있어 container가 실행되지 않는 문제가 있었음.
이를 해결하기 위해 환경변수 NVIDIA_DISABLE_REQUIRE=1(실행시에 cuda 버전을 체크하지 않음)를 설정헤서 custom docker image를 생성함.
Dockerfile
FROM kubeflownotebookswg/jupyter-tensorflow-cuda-full:v1.6.0
ENV NVIDIA_DISABLE_REQUIRE true