[tldr] 好用的GPU资源可视化工具

在训练模型的时候, 我们需要试试监控nvidia显卡状态

包含显存使用状态和核心运行占用的情况

传统方式是使用nvidia-smi工具来显示显卡使用情况.

但是这个方式只能展示当前的情况
即使使用-l 1指令来循环展示, 也是不断地输出在终端, 会把终端日志拉的很长
哪怕是使用watch diff这样的执行来监控变化的部分也不够好, 不能交互

nvitop

一个为了监控显卡的状态的类top的工具

  • 可以交互
  • 占用栏可视化(不是纯文本)

效果

image

这里是4卡, 所以有4个条目

image

可以通过选中一个任务检查具体的执行情况

安装

pip install nvitop

可以使用pip指令直接安装程序

使用

nvitop

直接使用执行即可启动, 类似htop操作方式

posted @ 2025-05-08 20:50  xuhe2  阅读(113)  评论(0)    收藏  举报