Ubuntu问题汇总ing...

本节将总结平常Ubuntu18.04系统出现的一系列问题,(本人单系统)目前问题有:nvidia-smi失败...

1.nvidia-smi显示失败

  在风和日丽的一天上午,打开实验室电脑,竟然发现电脑桌面图标变大了!!!【口吐芬芳...】并且终端输入nvidia-smi显示:

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

  此时我们还可以发现,GPU无法使用,只能使用CPU,正值要跑程序。。。对于类似这种偏“硬件”的问题,脑阔疼!!!终端输入:

nvcc -V

发现cuda存在,有的人说这是看驱动,系统操作小白的我一脸懵逼,完全不清楚这个操作到底是干嘛的,跟着别人照葫芦画瓢就行(手动狗头)。

  个人估摸应该是系统自动更新了驱动问题,接下来有很多人建议:更新驱动、内核降低,本文在此总结一下我个人的解决方法,见(2):

(1)首先是常规操作,有很多人用了以下操作:

  参考:知乎文章

sudo apt install dkms
sudo dkms install -m nvidia -v 418.87.00  
# 418.87.00为之前安装 nvidia 驱动的版本号,可通过ls /usr/src | grep nvidia查询

然而,对于本人并没有用。

(2)降低内核

sudo gedit /etc/default/grub  # 修改并保存
sudo update-grub  # 更新一下
# 重启

  修改图1中红点两行,保存并退出

  • GRUB_TIMEOUT_STYLE=hidden注释掉,即可在开机时显示Grub引导界面;

  • GRUB_TIMEOUT=5,设置引导界面的停留时间,单位:秒。

  重启后,我们就可以进入Grub引导界面,如图2,可进入--》Ubuntu高级选项,选择相应的内核版本,降低内核以匹配驱动版本。

  这时候再在终端输入nvidia-smi即可显示内存GPU等信息。

注意:上述这种方法,每次进入都需要选择内核版本,有一部分人,直接对图1种GRUB_DEFAULT进行操作,例如:GRUB_DEFAULT=“1> 3”,其中在Grub引导界面 中选择第2个选项(索引1),在子菜单中选择第四个选项(索引3)。这样就不用每次都选择。

  这个。。。。偷懒一下,后面等不用代码的时候,试一下,主要是索引的问题,需要确认一下,因为网上有人搞崩了,瑟瑟发抖,本人还是手动操作先。大家可以参考https://support.huaweicloud.com/trouble-ecs/ecs_trouble_0327.html, 我还没有去实践。

posted @ 2020-08-27 16:33  steven_zhao1001  阅读(156)  评论(0编辑  收藏  举报