第六篇: `dmesg` & `lspci` - 硬件层面的“黑匣子”与“雷达” - 教程

第六篇: dmesg & lspci - 硬件层面的“黑匣子”与“雷达”

核心目标

学会使用lspcidmesg这两个Linux原生命令,从最底层的PCI总线内核日志层面,去侦测和诊断那些nvidia-smi无法解释的“疑难杂症”。

使用场景

当你遇到以下情况时,nvidia-smi可能会失灵或无法提供足够信息,这时就轮到lspcidmesg登场了:

  • GPU“消失”nvidia-smi显示的GPU数量少于服务器实际安装的数量。
  • 驱动加载失败nvidia-smi返回couldn't communicate with the NVIDIA driver的经典错误。
  • 任务莫名崩溃:应用日志只报一个通用的CUDA错误,但nvidia-smi看起来一切正常,你需要寻找更深层次的原因。

我们将这两个命令比作飞机的“雷达”和“黑匣子”。

一、lspci - 硬件“雷达”:GPU是否存在?

在排查任何驱动问题之前,我们必须先回答一个最基本的问题:操作系统内核,到底有没有在PCIe总线上“看”到这块物理硬件?lspci(List PCI)就是回答这个问题的权威工具。

命令

posted on 2025-11-13 15:50  slgkaifa  阅读(0)  评论(0)    收藏  举报

导航