안녕하세요! 넓은 스펙트럼을 바탕으로 전체적인 그림을 보는 Ops Engineer 이재하입니다.
이번 글에서는 사내 서버에서 시도때도 없이 발생했던 nvidia driver version mismatch 에러에 대해 다뤄보고자 합니다.
해당 글의 목적은 nvidia 에러를 해결하는 것이 아닌 unattended-upgrade 시 패키지가 자동으로 업데이트 되는 것을 막는 것에 대한 글이므로 원인 파악을 하는 방법을 포함하지 않습니다.
nvidia 에러는 cmaven님의 블로그를 보고 해결하였으며, 해당 글 또한 원본 글을 참고했습니다.
현업에서 고생할 때 이 문제를 해결할 수 있도록 해주신 cmaven님께 먼저 감사 인사를 드립니다.
자세한 문제 확인 방법을 확인하고 싶으시거나 원본 블로그 글이 보고 싶으시다면 https://cmaven.github.io/linux/nvidia-smi-error-version/ 글을 확인해주세요.
$ nvidia-smi
Failed to initalize NVML: Driver/library version mismatch
nvidia driver apt 패키지를 hold 했음에도 불구하고 unattended-upgrade(보안 업그레이드)가 진행되면서 nvidia 드라이버 또한 업데이트 되어 커널과 클라이언트 모듈 버전 차이가 발생했습니다.
50unattended-upgrades
편집기로 열기sudo vim /etc/apt/apt.conf.d/50unattended-upgrades
Unattended-Upgrade::Package-Blacklist
에 패키지 추가# 예시
"nvidia-.*";
sudo unattended-upgrades --verbose --dry-run
sudo reboot
이렇게 현업에서 저를 괴롭혔던 Failed to initalize NVML: Driver/library version mismatch 에러 해결 방법을 간단히 작성해봤습니다. 해당 글은 nvidia 패키지에만 해당되는 것이 아닌, 보안 업그레이드를 진행하더라도 버전이 바뀌면 안되는 패키지들을 위 방법으로 방지할 수 있습니다.
추후에 모든 기술 블로그는 jaehai.com/post에 업로드 될 예정입니다.
제 글이 도움이 되셨다면 ops-jaeha Github 팔로우 부탁드리겠습니다!