CIHP_PGN 패키지를 실행하는 중에 이상하게 엄청나게 느리게 동작하는 것을 발견했다. 그 중 아래 코드가 실행되고 있어서 문제를 해결하는 과정을 담으려고 한다. 아래 참고자료의 1번 블로그 글을 참조했다.
successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
$ lspci | grep -i nvidia
bash: lspci: command not found
난 lspci 부터 설치를 해줘야겠네
$ apt update
$ apt list pci* # pci로 시작하는 apt 패키지를 확인할 수 있다.
Listing... Done
pciutils/bionic-updates 1:3.5.2-1ubuntu1.1 amd64
N: There is 1 additional version. Please use the '-a' switch to see it
$ apt install pciutils -y
정상적으로 설치할 수 있다.
$ lspci | grep -i nvidia
01:00.0 VGA compatible controller: NVIDIA Corporation Device 2482 (rev a1)
01:00.1 Audio device: NVIDIA Corporation Device 228b (rev a1)
오잉 왜 RTX 3070ti 를 제대로 인식하지 못하는거지?
참고자료 2번 블로그를 참고해보니 아래 코드로 업데이트 해주면 보이더라.
$ update-pciids
$ lspci | grep -i nvidia
01:00.0 VGA compatible controller: NVIDIA Corporation GA104 [GeForce RTX 3070 Ti] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GA104 High Definition Audio Controller (rev a1)
드디어 제대로 인식한다.
$ cd sys/bus/pci/devices/
sys/bus/pci/devices/$ ls
0000:00:00.0 0000:00:06.0 0000:00:14.0 0000:00:15.0 0000:00:15.2 0000:00:16.0 0000:00:19.0 0000:00:1c.0 0000:00:1f.0 0000:00:1f.4 0000:01:00.0 0000:02:00.0
0000:00:01.0 0000:00:0a.0 0000:00:14.2 0000:00:15.1 0000:00:15.3 0000:00:17.0 0000:00:19.1 0000:00:1c.2 0000:00:1f.3 0000:00:1f.5 0000:01:00.1 0000:04:00.0
sys/bus/pci/devices/$ cat /sys/bus/pci/devices/0000\:01\:00.0/numa_node
-1 # 연결이 잘 되어있지 않다는 것을 의미한다.
sys/bus/pci/devices/$ echo 0 | sudo tee -a /sys/bus/pci/devices/0000\:01\:00.0/numa_node
아래와 같은 메세지가 나타나서 수정할 수가 없다.
위에 개발환경을 써준 이유이다. docker-compose up으로 컨테이너를 생성한 것이었고, privileged 옵션을 주지 않았기 때문에 수정할 수가 없었다. 그래서 컨테이너를 새로 생성하면서 privileged 옵션을 아래와 같이 주었다.
다시 위의 과정을 반복해주고 numa_node를 수정해주었다.
sys/bus/pci/devices/$ echo 0 | sudo tee -a /sys/bus/pci/devices/0000\:01\:00.0/numa_node
0
sys/bus/pci/devices/$ cat /sys/bus/pci/devices/0000\:01\:00.0/numa_node
0
이를 통해 NUMA 관련 에러를 해결할 수 있었다.(다른 에러의 시작이라는 뜻)