查看V100显卡是否有ECC错误

使用nvidia-smi

nvidia-smi
nvidia-smi -q
#查询第0块GPU
nvidia-smi -q -i 0

ECC Errors 部分有4段,每段8个须均为 0 或 N/A 方为正常。

nvidia-smi -q
    ECC Mode
        Current                           : Enabled
        Pending                           : Enabled
    ECC Errors
        Volatile
            Single Bit
                Device Memory             : 0
                Register File             : 0
                L1 Cache                  : 0
                L2 Cache                  : 0
                Texture Memory            : N/A
                Texture Shared            : N/A
                CBU                       : N/A
                Total                     : 0
            Double Bit
                Device Memory             : 0
                Register File             : 0
                L1 Cache                  : 0
                L2 Cache                  : 0
                Texture Memory            : N/A
                Texture Shared            : N/A
                CBU                       : 0
                Total                     : 0
        Aggregate
            Single Bit
                Device Memory             : 0
                Register File             : 0
                L1 Cache                  : 0
                L2 Cache                  : 0
                Texture Memory            : N/A
                Texture Shared            : N/A
                CBU                       : N/A
                Total                     : 0
            Double Bit
                Device Memory             : 0
                Register File             : 0
                L1 Cache                  : 0
                L2 Cache                  : 0
                Texture Memory            : N/A
                Texture Shared            : N/A
                CBU                       : 0
                Total                     : 0
    Retired Pages

原文链接:https://mp.weixin.qq.com/s/e5-Gw6_U8oHl7teq2pF2lg

posted @ 2025-08-04 10:30  peakgrin  阅读(930)  评论(0)    收藏  举报