scontrol
# slurm scontrol 命令
scontrol
命令是 slurm 系统管理命令,可以用来管理已经提交的作业,包括查看作业状态、终止作业、暂停作业、继续作业等。天河系统上的命令为 yhcontrol
,本文以 yhcontrol
命令为例进行介绍。
常用场景如下:
# 查看作业实时状态
用户可以通过如下命令来查看自己提交的作业明细
yhcontrol show jobs jobid
1
其中 jobid 表示作业的 id 号,用户可以记住使用 yhbatch
命令提交后返回的 jobid,或者使用 yhq
命令进行查询。
m命令距离如下:
$ scontrol show jobid 12864804
JobId=12864804 JobName=test
UserId=zhenggang1(5005) GroupId=zhenggang1(5005) MCS_label=N/A
Priority=1 Nice=0 Account=zhenggang1 QOS=normal WCKey=*
JobState=RUNNING Reason=None Dependency=(null)
Requeue=0 Restarts=0 BatchFlag=0 Reboot=0 ExitCode=0:0
RunTime=00:00:20 TimeLimit=00:30:00 TimeMin=N/A
SubmitTime=2024-06-18T00:14:42 EligibleTime=2024-06-18T00:14:42
StartTime=2024-06-18T00:14:42 EndTime=2024-06-18T00:44:42 Deadline=N/A
PreemptTime=None SuspendTime=None SecsPreSuspend=0
Partition=debug AllocNode:Sid=th-hpc1-ln0:39863
ReqNodeList=(null) ExcNodeList=(null)
NodeList=cn[40-41]
BatchHost=cn40
NumNodes=2 NumCPUs=56 NumTasks=4 CPUs/Task=1 ReqB:S:C:T=0:0:*:*
TRES=cpu=56,node=2
Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*
MinCPUsNode=1 MinMemoryNode=0 MinTmpDiskNode=0
Features=(null) Gres=(null) Reservation=(null)
OverSubscribe=NO Contiguous=0 Licenses=(null) Network=(null)
Command=a.out
WorkDir=/THL6/home/zhenggang1
Power=
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
参数说明:
- JobID:任务的编号
- JobName:任务的名称
- JobState:任务对略
- SubmitTime:任务的提交时间
- StartTime:任务的开始运行时间
- EndTime:任务的预估结束时间(不准)
- Partition:任务的计算队列
- NodeList:任务的计算节点列表
- BatchHost:任务运行的头节点
- NumNodes:任务申请的节点数
- NumCPUs:任务申请的核心数(对于抢占式队列,每申请一个节点就会获得该节点全部的计算资源)
- NumTasks:任务运行的 tasks任务数
- CPUs/Task:每个 CPU核运行几个 task任务
- Command:程序运行的命令是什么
- WorkDir:程序的工作目录
# 暂停与恢复作业
用户可以通过如下命令来暂停或恢复作业
scontrol suspend jobid
scontrol resume jobid
1
2
2
# 终止作业
用户可以通过如下命令来终止作业
scontrol cancel jobid
1
注意:终止作业后,作业的状态将变为 CANCELLED
,但作业的输出文件不会被删除,用户可以根据需要自行删除。
# 其他命令
scontrol show jobid
:查看作业的详细信息scontrol show jobid2 jobid3
:查看多个作业的详细信息scontrol show nodes
:查看计算节点的详细信息scontrol show partitions
:查看计算队列的详细信息scontrol show reservation
:查看预约资源的详细信息scontrol show account
:查看账户的详细信息scontrol show qos
:查看 QoS 策略的详细信息scontrol show config
:查看 slurm 配置信息scontrol show version
:查看 slurm 版本信息