解决Ubuntu重启之后NVIDIA驱动屡次失效:报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver

服务器安装了Ubuntu20.4每次关机开机之后nvidia驱动就失效了

参考这2篇文档把问题解决了,虽然中间还出现mismatch的问题,但是不管了直接暴力重装吧(可能是系统内核自动升级之后的版本与原先安装的驱动程序版本不匹配的原因,nvidia驱动安装成功后,显卡kernel Module版本才会更新?)

解决关机开机后显卡失效:   https://www.jianshu.com/p/3cedce05a481  

解决安装nvidia驱动过程中,nvidia-drm正在被使用:https://blog.csdn.net/u010087338/article/details/107585801

首先按照下nvidia驱动:

$sudo service lightdm stop  #停Xserver

$sudo /usr/bin/nvidia-uinstall

$sudo chmod a+x NVIDIA-Linux-X86_64-型号.run

$sudo ./NVIDIA-Linux-x86_64-型号.run -no-x-check -no-nouveau-check -no-opengl-files#关闭x服务检查/禁用nouveau检查、不安装OpenGL

中间遇到一个erro:

An NVIDIA kernel module 'nvidia-drm'  appears to already be loaded in your kernel....

解决方法:

清除NVIDIA驱动,以下指令删除Nvidia的驱动程式,并使用autoremove移除所有不必要的相关套件

$sudo apt-get purge nvidia*

$sudo apt-get autoremove

$sudo reboot

完美解决~~

 

 

接下来解决nvidia驱动失效了......................

错误原因:重启时ubuntu的内核进行了更新,更新后的内核指向的是最新的显卡驱动,导致之前安装的显卡驱动虽然在,但是新内核不知道它在。

解决方案1:

$sudo apt-get install dkms#DKMS全称是Dynamic Kernel Module Support,它可以帮助完美维护内核外的这些驱动程序,

在内核版本变动之后可以自动重新生成新的模块

$sudo dkms install -m nvidia -v 460.76 #460.76是安装驱动的版本

中间又出了个error:

ERROR(dkms apport): binary package for nvidia: 460.76not found!这个是gcc版本过低导致的,目前gcc版本是7.5,切换到gcc9.3即可。

$sudo update-alternatives --config gcc

 

选择相应需要切换的gcc版本即可

验证下 nvidia-smi

 

 重启仍然有效~

20230307------------------但是过一段时间还会失效..................

于是试试另外一个解决方案:

https://blog.csdn.net/zong596568821xp/article/details/108824369?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167815222116800215016879%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167815222116800215016879&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-1-108824369-null-null.142^v73^insert_down4,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=nvidia%E6%98%BE%E5%8D%A1%E9%A9%B1%E5%8A%A8%E5%AE%89%E8%A3%85%E5%AE%8C%E4%B9%8B%E5%90%8E%E9%87%8D%E5%90%AF%E6%97%A0%E6%95%88&spm=1018.2226.3001.4187

步骤1:查看当前系统内核版本:

           $ uname -r

           5.15.0-67-generic

          对应的文件在/usr/src下:

       

           安装NVIDIA驱动的时候指定内核文件:

sudo ./NVIDIA-Linux-x86_64-525.89.02.run --no-opengl-files --no-x-check --no-nouveau-check --kernel-source-path=/usr/src/linux-headers-5.15.0-67-generic

 其他步骤照常

最后重启,驱动还在~~~

果断时间再来验证一下是否解决

 

posted @ 2021-07-28 11:28  猪大大BiuBiuBiu  阅读(6134)  评论(0编辑  收藏  举报