硬件资源
# 硬件配置
超算系统通常可以分为以下几个部分:登陆节点、计算节点、互联网络和存储系统等,系统配置在各套系统对应的用户手册中均有详细说明,此处介绍一下如何进行实际配置的检查。
# 登陆节点
登陆节点是超算系统的入口,用户通过该节点登陆系统,可以看到系统的欢迎界面、系统的基本配置。
# 操作系统
登录节点的操作系统内核版本,可以通过 uname -a
命令查看,例如:
$ uname -a
Linux ln0 3.10.0-693.el7.x86_64 #1 SMP Thu Jul 6 19:56:57 EDT 2017 x86_64 x86_64 x86_64 GNU/Linux
2
说明:
- Linux 操作系统类型
- ln 是 主机名 hostname
- 3.10.0 是内核版本
- el7 是基于 Red Hat Enterprise Linux (RHEL) 7 的内核版本
- x86_64 是基于 64 位 x86 架构
登录节点的操作系统发行版本,可以通过 cat /etc/redhat-release
命令查看,例如:
$ cat /etc/os-release
NAME="Red Hat Enterprise Linux Server"
VERSION="7.2 (Maipo)"
ID="rhel"
ID_LIKE="fedora"
VERSION_ID="7.2"
PRETTY_NAME="Red Hat Enterprise Linux Server 7.2 (Maipo)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:redhat:enterprise_linux:7.2:GA:server"
HOME_URL="https://www.redhat.com/"
BUG_REPORT_URL="https://bugzilla.redhat.com/"
REDHAT_BUGZILLA_PRODUCT="Red Hat Enterprise Linux 7"
REDHAT_BUGZILLA_PRODUCT_VERSION=7.2
REDHAT_SUPPORT_PRODUCT="Red Hat Enterprise Linux"
REDHAT_SUPPORT_PRODUCT_VERSION="7.2"
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
TIPS
通常用户可能不需要特别关心所使用的操作系统类型和版本,只有当出现某需要运行的程序出现兼容性问题时,可以通过系统命令查询,并检查该程序对操作系统版本的兼容性情况。
# CPU 配置
登录节点的 CPU 配置,可以通过 lscpu
命令查看,例如:
$ lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 40
On-line CPU(s) list: 0-39
Thread(s) per core: 2
Core(s) per socket: 10
座: 2
NUMA 节点: 2
厂商 ID: GenuineIntel
CPU 系列: 6
型号: 62
型号名称: Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz
步进: 4
CPU MHz: 3109.531
BogoMIPS: 5606.25
虚拟化: VT-x
L1d 缓存: 32K
L1i 缓存: 32K
L2 缓存: 256K
L3 缓存: 25600K
NUMA 节点0 CPU: 0-9,20-29
NUMA 节点1 CPU: 10-19,30-39
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
其中:
- CPU(s):表示 CPU 核数。
- Model name(型号名称):表示 CPU 型号。
特别注意
由于登录节点为多用户共享使用,因此禁止用户在登录节点进行任务计算,以及并行编译。避免某单一用户占用过多 CPU 资源导致登录节点卡死问题的出现。 登录节点运行有监控守护进程,当发现违规行为,初次进行警告。如多次违规,可能会面临账号禁用的风险。
# 内存配置
登录节点的内存配置,可以通过 free
命令查看,例如:
$ free -h
total used free shared buff/cache available
Mem: 62G 8.3G 10G 4.7G 44G 27G
Swap: 67G 1.6G 66G
2
3
4
其中:
- total:表示总内存大小,单位为 G。示例中,系统总内存为 64G,显示为 62G 是因为操作系统预留了 2G 内存,避免用户级应用申请过量内存时造成系统崩溃。
特别注意
对于登录节点,同 CPU 情况类似,内存资源也是多用户共用,因此当发生内存资源使用率过高的情况时,管理员运行的监控守护进程会 killed 掉用户占用内存过多的进程。
# 计算节点
计算节点是超算系统的计算节点,负责执行用户提交的作业。
查询计算节点的相关配置,可以通过以下命令:
srun -p debug lscpu # 查看 CPU 配置
srun -p debug free -h # 查看内存配置
srun -p debug uname -a # 查看操作系统内核版本
srun -p debug cat /etc/os-release # 查看操作系统发行版本
2
3
4
其中:
srun -p debug
:表示在 debug 队列上执行命令。用户可以先试用sinfo
命令查看可用队列名称,将debug
替换为可用队列名称,再进行查看。
# 互联网络
网络互联类型,通常需要参考用户手册中关于网络配置的部分,用户级由于权限限制,有可能无法查看网络配置的详细信息。
如果用户希望进行互联网网络的速度测试,可以参考:
- 使用 OSU Micro-Benchmarks 网站进行 MPI 网络性能测试,网址为: http://mvapich.cse.ohio-state.edu/benchmarks/
- 使用 iperf3 进行 TCP/IP 网络性能测试,网址为: https://iperf.fr/
# 存储系统
存储系统是超算系统的存储设备,负责存储用户提交的作业数据。
为方便应用程序的大规模并行计算,通常超算集群采用的存储为共享存储系统,即登录节点、计算节点共享同一套存储系统。
查询存储系统的相关配置,可以通过 df -h
命令查看,例如:
$ df -h
Filesystem Size Used Avail Use% Mounted on
121.16.48.1@o2ib:/fs1 1.0P 0.5P 0.5P 50% /fs1
2
3
Filesystem:表示文件系统的名称,以上 fs1 仅为 filesystem 的简写, 实际名称可能不同。
用户常用目录如下:
- /fs1/home: 用户的家目录,通常用于存放个人文件。
- /fs1/software: 系统的软件目录,通常用于存放系统提供的软件。
用户默认会设置有存储配额限制,也就是说虽然整体集群的存储用户非常大,但分配给具体某个用户的存储空间是有限,用户在登录系统时,会自动显示配额信息,例如:
Disk quotas for grp username (gid 5001):
Filesystem used quota limit grace files quota limit grace
/fs1 20G 512G 1T - 1000 1000000 2000000 -
2
3
这部分内容的详细说明,详见下面的存储资源限制章节。