Slurm(Simple Linux Utility for Resource Management) 是一个开源、容错、高可伸缩的集群管理和大型小型 Linux 集群作业调度系统。
SLURM 是一种可用于大型计算节点集群, 在超算平台上用得很多。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点(取决于资源的需求)。最后,SLURM 将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。
本质上,SLURM 是一个强健的集群管理器(更关注于对功能丰富性的需求方面),它高度可移植、可伸缩至大型节点集群、容错好,而且更重要的是它是开源的。SLURM 最早是一个开源的资源管理器,由几家公司(包括 Lawrence Livermore National Laboratory)协作开发。如今,SLURM 已经成为了很多最强大的超级计算机上使用的领先资源管理器。
slurm入门_plane0654的博客-CSDN博客_srun sleep
作业 — 上海交大超算平台用户手册 文档
https://blog.mrzhenggang.com/supercomputer-courses-slurm/#%E6%9F%A5%E7%9C%8B%E5%8F%AF%E7%94%A8%E8%8A%82%E7%82%B9-yhi