超算小站 超算小站
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
  • 注册账号

  • 登录系统

  • 熟悉系统

  • 配置环境

  • 数据管理

  • 作业管理

    • slurm

      • 简介
      • sinfo
      • srun
      • sbatch
      • squeue
      • scancel
      • salloc
      • scontrol
        • slurm scontrol 命令
          • 查看作业实时状态
        • 暂停与恢复作业
        • 终止作业
        • 其他命令
      • sacct
    • scripts

  • 技术支持
  • 用户手册
  • 作业管理
  • slurm
mrzhenggang
2024-06-17
目录

scontrol

# slurm scontrol 命令

scontrol 命令是 slurm 系统管理命令,可以用来管理已经提交的作业,包括查看作业状态、终止作业、暂停作业、继续作业等。天河系统上的命令为 yhcontrol,本文以 yhcontrol 命令为例进行介绍。

常用场景如下:

# 查看作业实时状态

用户可以通过如下命令来查看自己提交的作业明细

yhcontrol show jobs jobid
1

其中 jobid 表示作业的 id 号,用户可以记住使用 yhbatch 命令提交后返回的 jobid,或者使用 yhq 命令进行查询。

m命令距离如下:

$ scontrol show jobid 12864804
JobId=12864804 JobName=test
   UserId=zhenggang1(5005) GroupId=zhenggang1(5005) MCS_label=N/A
   Priority=1 Nice=0 Account=zhenggang1 QOS=normal WCKey=*
   JobState=RUNNING Reason=None Dependency=(null)
   Requeue=0 Restarts=0 BatchFlag=0 Reboot=0 ExitCode=0:0
   RunTime=00:00:20 TimeLimit=00:30:00 TimeMin=N/A
   SubmitTime=2024-06-18T00:14:42 EligibleTime=2024-06-18T00:14:42
   StartTime=2024-06-18T00:14:42 EndTime=2024-06-18T00:44:42 Deadline=N/A
   PreemptTime=None SuspendTime=None SecsPreSuspend=0
   Partition=debug AllocNode:Sid=th-hpc1-ln0:39863
   ReqNodeList=(null) ExcNodeList=(null)
   NodeList=cn[40-41]
   BatchHost=cn40
   NumNodes=2 NumCPUs=56 NumTasks=4 CPUs/Task=1 ReqB:S:C:T=0:0:*:*
   TRES=cpu=56,node=2
   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*
   MinCPUsNode=1 MinMemoryNode=0 MinTmpDiskNode=0
   Features=(null) Gres=(null) Reservation=(null)
   OverSubscribe=NO Contiguous=0 Licenses=(null) Network=(null)
   Command=a.out
   WorkDir=/THL6/home/zhenggang1
   Power=


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

参数说明:

  • JobID:任务的编号
  • JobName:任务的名称
  • JobState:任务对略
  • SubmitTime:任务的提交时间
  • StartTime:任务的开始运行时间
  • EndTime:任务的预估结束时间(不准)
  • Partition:任务的计算队列
  • NodeList:任务的计算节点列表
  • BatchHost:任务运行的头节点
  • NumNodes:任务申请的节点数
  • NumCPUs:任务申请的核心数(对于抢占式队列,每申请一个节点就会获得该节点全部的计算资源)
  • NumTasks:任务运行的 tasks任务数
  • CPUs/Task:每个 CPU核运行几个 task任务
  • Command:程序运行的命令是什么
  • WorkDir:程序的工作目录

# 暂停与恢复作业

用户可以通过如下命令来暂停或恢复作业

scontrol suspend jobid
scontrol resume jobid
1
2

# 终止作业

用户可以通过如下命令来终止作业

scontrol cancel jobid
1

注意:终止作业后,作业的状态将变为 CANCELLED,但作业的输出文件不会被删除,用户可以根据需要自行删除。

# 其他命令

  • scontrol show jobid:查看作业的详细信息
  • scontrol show jobid2 jobid3:查看多个作业的详细信息
  • scontrol show nodes:查看计算节点的详细信息
  • scontrol show partitions:查看计算队列的详细信息
  • scontrol show reservation:查看预约资源的详细信息
  • scontrol show account:查看账户的详细信息
  • scontrol show qos:查看 QoS 策略的详细信息
  • scontrol show config:查看 slurm 配置信息
  • scontrol show version:查看 slurm 版本信息
salloc
sacct

← salloc sacct→

Theme by Vdoing | Copyright © 2015-2024 Zheng Gang | MIT License | 津ICP备2021008634号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×