超算小站 超算小站
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
  • 注册账号

  • 登录系统

  • 熟悉系统

  • 配置环境

  • 数据管理

  • 作业管理

    • slurm

      • 简介
        • 简介
        • 调度逻辑
        • 常用命令
      • sinfo
      • srun
      • sbatch
      • squeue
      • scancel
      • salloc
      • scontrol
      • sacct
    • scripts

  • 技术支持
  • 用户手册
  • 作业管理
  • slurm
mrzhenggang
2024-06-17
目录

简介

# 简介

Slurm 是一个开源、容错、高可伸缩的集群管理和大型小型 Linux 集群作业调度系统。slurm不需要对操作系统内核进行修改,而是相对独立的。

slurm-logo.png

用户理解

超算集群不能在登陆节点计算任务,需要提交到计算节点,怎么提交呢?用作业管理系统提交。slurm就是其中一种。

# 调度逻辑

Slurm作业调度系统的调度逻辑如下图所示:

slurm-components.png

说明如下:

  • 蓝色的是客户端常用命令,也是用户最常使用的命令,包括了常用命令为
    • scontrol
    • squeue
    • sbatch
    • srun
    • sacctmgr
    • sacct
    • ... ...
  • 黄色的是 slurmd 服务
  • 紫色的是包括 slurmctld 控制服务 、slurmdbd 数据库服务相关的内容

# 常用命令

  • sinfo:查看计算资源的状态信息。
  • srun:运行作业。
  • sbatch:提交作业脚本运行作业。
  • squeue:查看当前用户的作业状态信息。
  • scancel:取消作业。
  • salloc:申请计算资源并提交作业。
  • scontrol:用来管理已经提交的作业。
  • sacct:查看历史作业信息。

下面分不同章节进行介绍。

跨集群拷贝数据
sinfo

← 跨集群拷贝数据 sinfo→

Theme by Vdoing | Copyright © 2015-2024 Zheng Gang | MIT License | 津ICP备2021008634号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×