实验室集群服务器使用
适用于 湖南师范大学 校园网登录IP:10.10.15.249
仪器介绍:https://lcsm.hunnu.edu.cn/zygx1/yqsb1.htm
申请节点:salloc -p all -N1 -n1 -c 4 --ntasks-per-node=1 --gres=gpu:1 -J jobname
登录节点:ssh node01
sinfo:由 Slurm 管理的分区和节点的状态
salloc:申请节点
squeue:查看集群所有状态
ssh node1:登录到申请的gpu节点node1
scontrol show job 942:查看某个作业(942)详细状态
squeue -j 942: 查看作业是否还在运行,确保作业已经退出
scancel 942:取消作业
sacct:用于汇总报告正在活动或者已经结束的job和job step的审计信息
sbatch: 用于提交做业脚本以供之后执行
smap: 由 Slurm 管理的做业、分区和节点的状态信息
srun: 用于提交执行任务或实时启动做业步骤。
srun 有各类各样的选项来指定资源需求, 包括: 最小和最大节点数、处理器计数、要使用或不使用的特定节点以及特定节点特征 (内存、磁盘空间、某些必需的功能等)
strigger: 用于设置、获取或查看事件触发器

浙公网安备 33010602011771号