(Simple Linux Utility for Resource Management)是一种可扩展的工作负载管理器,已被全世界的国家超级计算机中心广泛采用。 它是免费且开源的,根据发行。
本文档将协助您通过 Slurm 管理作业。 在这里可以找到更多的工作样本。
如果我们可以提供任何帮助,请随时联系 。
讯享网
节点状态包括:
(节点故障),(节点在用),(节点可用),(节点下线),(节点部分占用,但仍有剩余资源)。
查看总体资源信息:
作业状态包括(正在运行),(正在排队),(即将完成),(已完成)。
默认情况下,只会展示在排队或在运行的作业。
显示您自己账户下的作业:

选项可以显示更细节的信息。
准备作业脚本然后通过提交是 Slurm 的最常见用法。 为了将作业脚本提交给作业系统,Slurm 使用
Slurm 具有丰富的参数集。 以下最常用的。
这是一个名为的作业脚本,该脚本向cpu队列申请1个节点40核,并在作业完成时通知。在此作业中执行的命令是。
用以下方式提交作业:
可用于检查作业状态。用户可以在作业执行期间通过SSH登录到计算节点。输出将实时更新到文件[jobid] .out和[jobid] .err。
这里展示一个更复杂的作业要求,其中将启动80个进程,每台主机40个进程。
以下作业请求4张GPU卡,其中1个CPU进程管理1张GPU卡。
以下作业启动一个3任务序列(从0到2),每个任务需要1个CPU内核。关于集群上的Python,您可以查阅我们的。

可以启动交互式作业。该操作将阻塞,直到完成或终止。例如,在计算主机上运行。
启动远程主机bash终端:
或者,可以通过请求资源,然后在获取节点后登录到计算节点:
: 查看和修改作业参数
scontrol hold 命令可使排队中尚未运行的作业暂停被分配运行,被挂起的作业将不被执行。scontrol release 命令可取消挂起。
查看作业记录
默认情况下,sacct显示过去 24小时 的帐号作业信息。
查看更多的信息:
查看平均作业内存消耗和最大内存消耗:
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/188296.html