[과정2] 서버 GPU 연결 성공!

Leejaegun·2024년 8월 25일

아 진짜 너무너무 힘들었다ㅠㅠㅠㅠ
이게 뭐라고 이렇게 까지 힘들게 만들었을까??
진짜 tensorflow 는 전설이다(역으로)

사랑해!!!

순서는 대략

목차

0.0. 기존에 설치된 ndriver, cuda, cuDNN전부 제거.
1.1. Nvidia Ndriver 를 설치해주어야한다.
(아마 나는 이걸 잘못 설치해서 안되었던거 같다)
2.2. 본인 GPU 에 맞는 Cuda, cuDNN 확인 및 설치
3.3. Cuda,cuDNN에 맞는 tensorflow 버전 설치.

이렇게 쉬운걸 왜 나는 그렇게 걸렸던건가

(멍청해서 그래)

0. 기존에 설치된거 삭제

① Cuda 제거

sudo apt-get --purge remove 'cuda*'
sudo apt-get autoremove --purge 'cuda*'

② Cuda 파일 삭제

sudo rm -rf /usr/local/cuda-12.2
sudo rm -rf /usr/local/cuda

1.GPU 확인

1.0 Gpu 설치확인

lshw -C display

lshw: list hardware 로 설치가 GPU 가 정상적으로 설치되었는지 확인해줌.

이렇게 VGA ~ 어쩌구 저쩌구 하면 됨!
(참고로 VGA는 Videa Graphic Array의 약자라고 한다.)

1.1 Driver 추천 확인

sudo ubuntu-drivers devices

-> 자신의 GPU에 맞는 드라이버를 추천해줌. 나같은 경우는 545 이상 추천해줌

정리하자면 RTX6000 ada Generation은
nvidia_Ndriver 550,Cuda 12.x 이상 , cuDNN 8.9.7 설치,tensorflow 2.17.0 설치.

2.Cuda 설치

본인에게 맞는 버전 설치
https://developer.nvidia.com/cuda-toolkit-archive

설치하고 나서

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

bashrc 열어서 제일 밑에 입력

source ~./bashrc 하고
nvcc -V 로 확인

3. cuDNN설치

https://developer.nvidia.com/rdp/cudnn-archive
본인에게 맞는거 찾아서 설치

1) 다운로드 파일 압축 풀기
tar -xvf cudnn-linux-x86_64-8.9.4.25_cuda11-archive.tar.xz

2) 압축 푼 경로로 이동
cd cudnn-linux-x86_64-8.9.4.25_cuda11-archive/

3) /usr/local/cuda 경로로 파일 복사

sudo cp include/cudnn*.h /usr/local/cuda/include
sudo cp lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda-12.1/include/cudnn*.h /usr/local/cuda-12.1/lib64/libcudnn*

❗ 만약에 cuDNN이 이상한 곳에 있어서 찾기가 힘들다?

sudo find / -name "libcudnn*"

이거해서 설치된 경로 찾고 거기서 cp 하셈.
4) 설치된 cuDNN 버전 확인

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

5) 출력 결과
#define CUDNN_MAJOR 8
#define CUDNN_MINOR 9
#define CUDNN_PATCHLEVEL 7

6) 설치확인

ls /usr/local/cuda-12.1/lib64 | grep libcudnn
ls /usr/local/cuda-12.1/include | grep cudnn

어쨋든 이러고 pip install tensorflow==2.17.0하면끝

이렇게 쉬운거였다..

그래도 결국엔 성공했으니 뿌듯하다...!

+번외


이 사진을 보기 위해서 엄청난 똥꼬쇼를 했는데
결국엔 tensorflow version 이랑 url:https://www.tensorflow.org/install/source?hl=ko

pip install tensorflow[and-cuda]==2.14.0 <- 이게 컷던거 같다. 표에서 cuda 12.2의 텐서플로우를 깔려고 해서 계속 인식을 못한게 아닌가 생각
왜냐면 난 12.1 인데 그냥 무턱대로 12.2의 버전인 tensorflow 깔아서..

profile
Lee_AA

0개의 댓글