简介
# 简介
Slurm 是一个开源、容错、高可伸缩的集群管理和大型小型 Linux 集群作业调度系统。slurm不需要对操作系统内核进行修改,而是相对独立的。
用户理解
超算集群不能在登陆节点计算任务,需要提交到计算节点,怎么提交呢?用作业管理系统提交。slurm
就是其中一种。
# 调度逻辑
Slurm作业调度系统的调度逻辑如下图所示:
说明如下:
- 蓝色的是客户端常用命令,也是用户最常使用的命令,包括了常用命令为
- scontrol
- squeue
- sbatch
- srun
- sacctmgr
- sacct
- ... ...
- 黄色的是 slurmd 服务
- 紫色的是包括 slurmctld 控制服务 、slurmdbd 数据库服务相关的内容
# 常用命令
- sinfo:查看计算资源的状态信息。
- srun:运行作业。
- sbatch:提交作业脚本运行作业。
- squeue:查看当前用户的作业状态信息。
- scancel:取消作业。
- salloc:申请计算资源并提交作业。
- scontrol:用来管理已经提交的作业。
- sacct:查看历史作业信息。
下面分不同章节进行介绍。