Linux服务器重启后nvidia-smi无法使用的解决方法

 

服务器上的nvidia显卡驱动用的好好的,突然有一天,服务器断电了,然后恢复之后发现常用的nvidia-smi命令无法使用了,具体显示什么无法建立和驱动器的通信之类的,上网查了一堆,发现问题的核心:linux服务器重启之后有时候内核更新了,这时候系统会自动更新内核,那么原来的nvidia驱动器的版本就跟不上内核的版本了。自己设置启动内核是一种解决方法,另一种解决办法是更新nvidia驱动,如果原来是用.run文件安装的(推荐这种安装方式),那么解决方法:

首先卸载原来安装的驱动: sh NVIDIA-Linux-x86_64-410.73.run --uninstall

然后到nvidia显卡驱动官网查询自己显卡型号对应的驱动.run文件,官网上的是最新的。

然后给新的文件赋予权限:chmod u+x NVIDIA-Linux-x86_64-410.73.run

然后安装 sh NVIDIA-Linux-x86_64-430.26.run --kernel-source-path=/usr/src/kernels/3.10.0-957.12.1.el7.x86_64

这个kernel-source-path根据自己的内核来,查看就是uname -r能查看到现在的内核。

安装过程中基本上按照默认就行,就有一个地方提示之前的依赖文件存在一部分(可能是卸载的时候没有卸载干净),选择安装新的并覆盖原来的就行了。

posted @ 2019-06-23 15:50  不著人间风雨门  阅读(5831)  评论(0编辑  收藏