实验室集群服务器使用

适用于 湖南师范大学 校园网登录IP:10.10.15.249

仪器介绍:https://lcsm.hunnu.edu.cn/zygx1/yqsb1.htm

申请节点:salloc -p all -N1 -n1 -c 4 --ntasks-per-node=1 --gres=gpu:1 -J jobname

登录节点:ssh node01

sinfo:由 Slurm 管理的分区和节点的状态

salloc:申请节点

squeue:查看集群所有状态

ssh node1:登录到申请的gpu节点node1

scontrol show job 942:查看某个作业(942)详细状态

squeue -j 942: 查看作业是否还在运行,确保作业已经退出

scancel 942:取消作业

sacct:用于汇总报告正在活动或者已经结束的job和job step的审计信息

sbatch: 用于提交做业脚本以供之后执行

smap: 由 Slurm 管理的做业、分区和节点的状态信息

srun: 用于提交执行任务或实时启动做业步骤。
srun 有各类各样的选项来指定资源需求, 包括: 最小和最大节点数、处理器计数、要使用或不使用的特定节点以及特定节点特征 (内存、磁盘空间、某些必需的功能等)

strigger: 用于设置、获取或查看事件触发器

posted @ 2021-08-14 10:09  gkm0120  阅读(256)  评论(0编辑  收藏  举报