超算小站 超算小站
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
  • 编译环境

  • 基础库

  • 应用软件

  • 工具软件

    • citrix 安装记录及报错记录
    • 如何使用TACC launcher来批量提交串行任务
    • slurm作业管理系统怎么用?
    • Collectl在天河系统上的使用
      • TH-1A集群
        • 加载
        • 运行
        • 分析数据
        • 视频教学
      • TH-ES集群
        • 加载
        • 运行
        • 分析数据
        • 视频教学
    • WinSCP软件使用简介(支持断点续传)
    • Linux使用:screen
  • 常用语言环境

  • 使用进阶

  • 软件中心
  • 工具软件
mrzhenggang
2019-07-28
目录

Collectl在天河系统上的使用

我们在TH-1A/HPC/ES集群部署了collectl工具,下面以TH-1A和TH-ES集群为例介绍collectl的使用方法

# TH-1A集群

# 加载

module add collectl
1

# 运行

# 拷贝脚本

拷贝脚本到算例的目录

cp $COLLECTL_HOME/scripts/v1.0/* .
1

# 修改相关参数

依据不同任务,修改collectl-run.sh脚本参数,包括:

  • partition 计算分区,可用yhi查看可用分区。
  • nodes 运行节点数
  • cores 运行总核数
  • exe 运行命令及相关参数,例如lmp < in.lj > out.log。(写的是实际运行的命令,而不是提交脚本或类似 yhrun -N1 exe)
  • OMP_NUM_THREADS 设置线程数

# 提交任务

直接执行该脚本

./collectl-run.sh
1

会获得jobid号,例如:14570273。

使用 yhq 查看任务状态, PD 为等待, R 为运行, 如果任务消失则表示结束。

# 分析数据

等待任务结束后,分析数据,运行脚本:

 ./collectl-analysis.sh nodesfile-14570273
1

说明:

  • nodesfile-14570273 为运行得到的节点编号文件,请依据实际 jobid 进行修改。

分析结果类似:

This is collectl script --- analysis calculate node messages.
Analyzing nodesfile-14570273 cn2021
         Operation          Max        Min       Mean
         CPU USAGE(%)     33.00       0.00       5.43
          MEMORY(MB)    6144.00    5120.00    5266.29
     NetworkIn(KB/s)       0.00       0.00       0.00
  NetworkIn(count/s)       0.00       0.00       0.00
    NetworkOut(KB/s)       0.00       0.00       0.00
 NetworkOut(count/s)       0.00       0.00       0.00
        IORead(KB/s)    5075.00      12.00    2179.29
     IORead(count/s)    1394.00      46.00     632.29
       IOWrite(KB/s)     372.00       4.00     178.86
    IOWrite(count/s)    1256.00      44.00     548.43
Plt cn2021.log_cpuuse.png
1
2
3
4
5
6
7
8
9
10
11
12
13
14

说明:

  1. CPU USAGE(%) 为CPU 使用率
  2. MEMORY(MB) 为内存使用量
  3. Network 为网络通信数据, KB/s 每秒通信量, count/s 每秒通信次数
  4. IORead, IOWrite 为IO读写情况
  5. 程序会生成png图片用于分析

# 视频教学

您的浏览器不支持 video 标签,请使用最新版的浏览器或使用其他视频播放器
您的浏览器不支持 video 标签。

# TH-ES集群

# 加载

module add collectl
1

# 运行

# 拷贝脚本

进入脚本目录:

cd $COLLECTL_HOME/scripts
1

拷贝需要的脚本到算例的目录,例如我们使用template目录下的脚本:

cp $COLLECTL_HOME/scripts/template/* .
chmod +x collectl-*
1
2

# 修改相关参数

依据不同任务,修改collectl-run.sh脚本参数,包括:

  • partition 计算分区,可用yhi查看可用分区。(通常为TH_ES,无需修改)
  • nodes 运行节点数
  • cpuspernode 每个节点运行的核数(不要超过28核)
  • OMP_NUM_THREADS 设置线程数(通常mpi任务设置为1即可)
  • exe 运行命令及相关参数,例如a.out < input.txt > out.log。(写的是实际运行的命令,而不是提交脚本或类似 yhrun -N 1 -n 28 a.out < input.txt > out.log)

这一步是主要工作,不同任务的运行主要就是修改运行的软件和命令。软件自身运行需要的环境变量,请提前自行加载好。

# 提交任务

直接执行该脚本

./collectl-run.sh
1

会获得jobid号,例如:14570273。

使用 yhq 查看任务状态, PD 为等待, R 为运行, 如果任务消失则表示结束。

# 分析数据

等待任务结束后,分析数据,运行脚本:

 ./collectl-analysis.sh nodesfile-14570273
1

说明:

  • nodesfile-14570273 为运行得到的节点编号文件,请依据实际 jobid 进行修改。

分析结果类似:

==============================================================
This is collectl script --- analysis calculate node messages.
==============================================================
Job Start Time       = 2019-10-23 12:06:43
JOb ID               = 14570273
Computing partition  = TH_ES
Number of nodes      = 2
Number of processes  = 56
Tasks Per Node       = 28(x2)
SLURM_NODELIST       = cn[21-22]
Submit Directory     = /THL5/home/zhenggang/workdir/colleclt/lmp
Report File          = report.txt
--------------------------------------------
Analyzing nodesfile-1864420 cn21
         Operation          Max        Min       Mean
         CPU USAGE(%)    100.00       0.00     100.00
          MEMORY(MB)    6663.00    6663.00    6663.00
     NetworkIn(KB/s)       0.00       0.00       0.00
  NetworkIn(count/s)       0.00       0.00       0.00
    NetworkOut(KB/s)       0.00       0.00       0.00
 NetworkOut(count/s)       0.00       0.00       0.00
        IORead(KB/s)     320.00       0.00       7.50
     IORead(count/s)      65.00       8.00      14.29
       IOWrite(KB/s)      32.00       0.00       2.73
    IOWrite(count/s)      59.00       0.00       2.00
--------------------------------------------
Analyzing nodesfile-1864420 cn22
         Operation          Max        Min       Mean
         CPU USAGE(%)    100.00       0.00     100.00
          MEMORY(MB)    6663.00    6663.00    6663.00
     NetworkIn(KB/s)       0.00       0.00       0.00
  NetworkIn(count/s)       0.00       0.00       0.00
    NetworkOut(KB/s)       0.00       0.00       0.00
 NetworkOut(count/s)       0.00       0.00       0.00
        IORead(KB/s)     320.00       0.00       7.37
     IORead(count/s)      65.00       8.00      14.24
       IOWrite(KB/s)      32.00       0.00       2.67
    IOWrite(count/s)      59.00       0.00       1.96
--------------------------------------------
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

说明:

  1. CPU USAGE(%) 为CPU 使用率
  2. MEMORY(MB) 为内存使用量
  3. Network 为网络通信数据, KB/s 每秒通信量, count/s 每秒通信次数
  4. IORead, IOWrite 为IO读写情况
  5. 程序会生成png图片用于分析

# 视频教学

TH-1A系统版本, TH_ES系统类似

您的浏览器不支持 video 标签,请使用最新版的浏览器或使用其他视频播放器
slurm作业管理系统怎么用?
WinSCP软件使用简介(支持断点续传)

← slurm作业管理系统怎么用? WinSCP软件使用简介(支持断点续传)→

Theme by Vdoing | Copyright © 2015-2024 Zheng Gang | MIT License | 津ICP备2021008634号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×