Collectl在天河系统上的使用
我们在TH-1A/HPC/ES集群部署了collectl工具,下面以TH-1A和TH-ES集群为例介绍collectl的使用方法
# TH-1A集群
# 加载
module add collectl
1
# 运行
# 拷贝脚本
拷贝脚本到算例的目录
cp $COLLECTL_HOME/scripts/v1.0/* .
1
# 修改相关参数
依据不同任务,修改collectl-run.sh
脚本参数,包括:
- partition 计算分区,可用
yhi
查看可用分区。 - nodes 运行节点数
- cores 运行总核数
- exe 运行命令及相关参数,例如
lmp < in.lj > out.log
。(写的是实际运行的命令,而不是提交脚本或类似yhrun -N1 exe
) - OMP_NUM_THREADS 设置线程数
# 提交任务
直接执行该脚本
./collectl-run.sh
1
会获得jobid
号,例如:14570273。
使用 yhq
查看任务状态, PD
为等待, R
为运行, 如果任务消失则表示结束。
# 分析数据
等待任务结束后,分析数据,运行脚本:
./collectl-analysis.sh nodesfile-14570273
1
说明:
nodesfile-14570273
为运行得到的节点编号文件,请依据实际jobid
进行修改。
分析结果类似:
This is collectl script --- analysis calculate node messages.
Analyzing nodesfile-14570273 cn2021
Operation Max Min Mean
CPU USAGE(%) 33.00 0.00 5.43
MEMORY(MB) 6144.00 5120.00 5266.29
NetworkIn(KB/s) 0.00 0.00 0.00
NetworkIn(count/s) 0.00 0.00 0.00
NetworkOut(KB/s) 0.00 0.00 0.00
NetworkOut(count/s) 0.00 0.00 0.00
IORead(KB/s) 5075.00 12.00 2179.29
IORead(count/s) 1394.00 46.00 632.29
IOWrite(KB/s) 372.00 4.00 178.86
IOWrite(count/s) 1256.00 44.00 548.43
Plt cn2021.log_cpuuse.png
1
2
3
4
5
6
7
8
9
10
11
12
13
14
2
3
4
5
6
7
8
9
10
11
12
13
14
说明:
CPU USAGE(%)
为CPU 使用率MEMORY(MB)
为内存使用量Network
为网络通信数据,KB/s
每秒通信量,count/s
每秒通信次数IORead
,IOWrite
为IO读写情况- 程序会生成
png
图片用于分析
# 视频教学
# TH-ES集群
# 加载
module add collectl
1
# 运行
# 拷贝脚本
进入脚本目录:
cd $COLLECTL_HOME/scripts
1
拷贝需要的脚本到算例的目录,例如我们使用template目录下的脚本:
cp $COLLECTL_HOME/scripts/template/* .
chmod +x collectl-*
1
2
2
# 修改相关参数
依据不同任务,修改collectl-run.sh
脚本参数,包括:
- partition 计算分区,可用
yhi
查看可用分区。(通常为TH_ES,无需修改) - nodes 运行节点数
- cpuspernode 每个节点运行的核数(不要超过28核)
- OMP_NUM_THREADS 设置线程数(通常mpi任务设置为1即可)
- exe 运行命令及相关参数,例如
a.out < input.txt > out.log
。(写的是实际运行的命令,而不是提交脚本或类似yhrun -N 1 -n 28 a.out < input.txt > out.log
)
这一步是主要工作,不同任务的运行主要就是修改运行的软件和命令。软件自身运行需要的环境变量,请提前自行加载好。
# 提交任务
直接执行该脚本
./collectl-run.sh
1
会获得jobid
号,例如:14570273。
使用 yhq
查看任务状态, PD
为等待, R
为运行, 如果任务消失则表示结束。
# 分析数据
等待任务结束后,分析数据,运行脚本:
./collectl-analysis.sh nodesfile-14570273
1
说明:
nodesfile-14570273
为运行得到的节点编号文件,请依据实际jobid
进行修改。
分析结果类似:
==============================================================
This is collectl script --- analysis calculate node messages.
==============================================================
Job Start Time = 2019-10-23 12:06:43
JOb ID = 14570273
Computing partition = TH_ES
Number of nodes = 2
Number of processes = 56
Tasks Per Node = 28(x2)
SLURM_NODELIST = cn[21-22]
Submit Directory = /THL5/home/zhenggang/workdir/colleclt/lmp
Report File = report.txt
--------------------------------------------
Analyzing nodesfile-1864420 cn21
Operation Max Min Mean
CPU USAGE(%) 100.00 0.00 100.00
MEMORY(MB) 6663.00 6663.00 6663.00
NetworkIn(KB/s) 0.00 0.00 0.00
NetworkIn(count/s) 0.00 0.00 0.00
NetworkOut(KB/s) 0.00 0.00 0.00
NetworkOut(count/s) 0.00 0.00 0.00
IORead(KB/s) 320.00 0.00 7.50
IORead(count/s) 65.00 8.00 14.29
IOWrite(KB/s) 32.00 0.00 2.73
IOWrite(count/s) 59.00 0.00 2.00
--------------------------------------------
Analyzing nodesfile-1864420 cn22
Operation Max Min Mean
CPU USAGE(%) 100.00 0.00 100.00
MEMORY(MB) 6663.00 6663.00 6663.00
NetworkIn(KB/s) 0.00 0.00 0.00
NetworkIn(count/s) 0.00 0.00 0.00
NetworkOut(KB/s) 0.00 0.00 0.00
NetworkOut(count/s) 0.00 0.00 0.00
IORead(KB/s) 320.00 0.00 7.37
IORead(count/s) 65.00 8.00 14.24
IOWrite(KB/s) 32.00 0.00 2.67
IOWrite(count/s) 59.00 0.00 1.96
--------------------------------------------
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
说明:
CPU USAGE(%)
为CPU 使用率MEMORY(MB)
为内存使用量Network
为网络通信数据,KB/s
每秒通信量,count/s
每秒通信次数IORead
,IOWrite
为IO读写情况- 程序会生成
png
图片用于分析
# 视频教学
TH-1A系统版本, TH_ES系统类似