超算小站 超算小站
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
  • 注册账号

  • 登录系统

  • 熟悉系统

  • 配置环境

  • 数据管理

  • 作业管理

    • slurm

      • 简介
      • sinfo
      • srun
      • sbatch
      • squeue
      • scancel
      • salloc
        • salloc命令
        • 使用场景
      • scontrol
      • sacct
    • scripts

  • 技术支持
  • 用户手册
  • 作业管理
  • slurm
mrzhenggang
2024-06-17
目录

salloc

# salloc命令

salloc 命令可以实现先申请资源,成功申请到计算资源后,再执行命令。在天河系统上的命令为 yhalloc。本文以 yhalloc 命令为例进行介绍。

# 使用场景

step1:使用 salloc 命令申请资源:

$ yhalloc -N 2 -n 56 -p debug
yhalloc: Granted job allocation 12918898
1
2

说明:

  1. 通常需要指定申请计算资源的分区名(如 debug 分区,可以用 yhi 命令查看可用分区)
  2. 通常需要指定申请的节点数目/申请的核心数(示例中 -N 2 表示申请两个节点,-n 56 表示每个节点有 56 个核)
  3. 运行这个命令后,会在命令行下方看到类似如下信息:

step2:使用 srun 命令提交任务到节点执行

这是再使用 srun 命令运行的程序,将会运行在刚才申请的计算资源上。

step3:如果希望切换到计算节点执行,可以先获得节点名称(使用 yhq 命令),然后 ssh 命令切到节点上

$ yhq
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
          12918898     debug     bash zhenggan  R       0:01      2 cn[1064-1065]
1
2
3

我们看到节点编号为 cn[1064-1065],我们可以 ssh 到该节点上:

$ ssh cn1064
$ hostname
cn1064
1
2
3

在这个节点执行相关命令,完成任务后,再切回到计算节点上:

$ exit
1

step4: 完成任务后,释放计算资源

$ yhcancel 12918898
1

说明:

  1. 通常需要指定要取消的任务的 JOBID
  2. 运行这个命令后,会在命令行下方看到类似如下信息:
scancel: Job 12918898 has been successfully cancelled
1

这里面的 12918898 就是之前 salloc 命令返回的 JOBID。

scancel
scontrol

← scancel scontrol→

Theme by Vdoing | Copyright © 2015-2024 Zheng Gang | MIT License | 津ICP备2021008634号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×