NVIDIA GPU :: successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero

johyonghoon·2023년 4월 4일
0

에러

CIHP_PGN 패키지를 실행하는 중에 이상하게 엄청나게 느리게 동작하는 것을 발견했다. 그 중 아래 코드가 실행되고 있어서 문제를 해결하는 과정을 담으려고 한다. 아래 참고자료의 1번 블로그 글을 참조했다.

successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero

개발환경

  • docker container :: ubuntu18.04 | CUDA 10.1 | cuDNN 7.6.5

해결방안

노드 확인

$ lspci | grep -i nvidia
bash: lspci: command not found

난 lspci 부터 설치를 해줘야겠네

$ apt update
$ apt list pci*  # pci로 시작하는 apt 패키지를 확인할 수 있다.
Listing... Done
pciutils/bionic-updates 1:3.5.2-1ubuntu1.1 amd64
N: There is 1 additional version. Please use the '-a' switch to see it
$ apt install pciutils -y

정상적으로 설치할 수 있다.

$ lspci | grep -i nvidia
01:00.0 VGA compatible controller: NVIDIA Corporation Device 2482 (rev a1)
01:00.1 Audio device: NVIDIA Corporation Device 228b (rev a1)

오잉 왜 RTX 3070ti 를 제대로 인식하지 못하는거지?
참고자료 2번 블로그를 참고해보니 아래 코드로 업데이트 해주면 보이더라.

$ update-pciids
$ lspci | grep -i nvidia
01:00.0 VGA compatible controller: NVIDIA Corporation GA104 [GeForce RTX 3070 Ti] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GA104 High Definition Audio Controller (rev a1)

드디어 제대로 인식한다.

NUMA 설정값 확인 및 변경

$ cd sys/bus/pci/devices/
sys/bus/pci/devices/$ ls
0000:00:00.0  0000:00:06.0  0000:00:14.0  0000:00:15.0  0000:00:15.2  0000:00:16.0  0000:00:19.0  0000:00:1c.0  0000:00:1f.0  0000:00:1f.4  0000:01:00.0  0000:02:00.0
0000:00:01.0  0000:00:0a.0  0000:00:14.2  0000:00:15.1  0000:00:15.3  0000:00:17.0  0000:00:19.1  0000:00:1c.2  0000:00:1f.3  0000:00:1f.5  0000:01:00.1  0000:04:00.0

sys/bus/pci/devices/$ cat /sys/bus/pci/devices/0000\:01\:00.0/numa_node
-1  # 연결이 잘 되어있지 않다는 것을 의미한다.
sys/bus/pci/devices/$ echo 0 | sudo tee -a /sys/bus/pci/devices/0000\:01\:00.0/numa_node

아래와 같은 메세지가 나타나서 수정할 수가 없다.

위에 개발환경을 써준 이유이다. docker-compose up으로 컨테이너를 생성한 것이었고, privileged 옵션을 주지 않았기 때문에 수정할 수가 없었다. 그래서 컨테이너를 새로 생성하면서 privileged 옵션을 아래와 같이 주었다.

다시 위의 과정을 반복해주고 numa_node를 수정해주었다.

sys/bus/pci/devices/$ echo 0 | sudo tee -a /sys/bus/pci/devices/0000\:01\:00.0/numa_node
0
sys/bus/pci/devices/$ cat /sys/bus/pci/devices/0000\:01\:00.0/numa_node
0

이를 통해 NUMA 관련 에러를 해결할 수 있었다.(다른 에러의 시작이라는 뜻)

참고자료

  1. 블로그 :: [문제해결] NUMA node read from SysFS had negative value -1
  2. 블로그 :: Nvidia gpu 장치 확인하는 방법

0개의 댓글