硬件资源
  # 硬件配置
超算系统通常可以分为以下几个部分:登陆节点、计算节点、互联网络和存储系统等,系统配置在各套系统对应的用户手册中均有详细说明,此处介绍一下如何进行实际配置的检查。
# 登陆节点
登陆节点是超算系统的入口,用户通过该节点登陆系统,可以看到系统的欢迎界面、系统的基本配置。
# 操作系统
登录节点的操作系统内核版本,可以通过 uname -a 命令查看,例如:
$ uname -a
Linux ln0 3.10.0-693.el7.x86_64 #1 SMP Thu Jul 6 19:56:57 EDT 2017 x86_64 x86_64 x86_64 GNU/Linux
 2
说明:
- Linux 操作系统类型
 - ln 是 主机名 hostname
 - 3.10.0 是内核版本
 - el7 是基于 Red Hat Enterprise Linux (RHEL) 7 的内核版本
 - x86_64 是基于 64 位 x86 架构
 
登录节点的操作系统发行版本,可以通过 cat /etc/redhat-release 命令查看,例如:
$ cat /etc/os-release
NAME="Red Hat Enterprise Linux Server"
VERSION="7.2 (Maipo)"
ID="rhel"
ID_LIKE="fedora"
VERSION_ID="7.2"
PRETTY_NAME="Red Hat Enterprise Linux Server 7.2 (Maipo)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:redhat:enterprise_linux:7.2:GA:server"
HOME_URL="https://www.redhat.com/"
BUG_REPORT_URL="https://bugzilla.redhat.com/"
REDHAT_BUGZILLA_PRODUCT="Red Hat Enterprise Linux 7"
REDHAT_BUGZILLA_PRODUCT_VERSION=7.2
REDHAT_SUPPORT_PRODUCT="Red Hat Enterprise Linux"
REDHAT_SUPPORT_PRODUCT_VERSION="7.2"
 2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
TIPS
通常用户可能不需要特别关心所使用的操作系统类型和版本,只有当出现某需要运行的程序出现兼容性问题时,可以通过系统命令查询,并检查该程序对操作系统版本的兼容性情况。
# CPU 配置
登录节点的 CPU 配置,可以通过 lscpu 命令查看,例如:
$ lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                40
On-line CPU(s) list:   0-39
Thread(s) per core:    2
Core(s) per socket:    10
座:                   2
NUMA 节点:            2
厂商 ID:              GenuineIntel
CPU 系列:             6
型号:                 62
型号名称:             Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz
步进:                 4
CPU MHz:             3109.531
BogoMIPS:            5606.25
虚拟化:               VT-x
L1d 缓存:             32K
L1i 缓存:             32K
L2 缓存:              256K
L3 缓存:              25600K
NUMA 节点0 CPU:       0-9,20-29
NUMA 节点1 CPU:       10-19,30-39
 2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
其中:
- CPU(s):表示 CPU 核数。
 - Model name(型号名称):表示 CPU 型号。
 
特别注意
由于登录节点为多用户共享使用,因此禁止用户在登录节点进行任务计算,以及并行编译。避免某单一用户占用过多 CPU 资源导致登录节点卡死问题的出现。 登录节点运行有监控守护进程,当发现违规行为,初次进行警告。如多次违规,可能会面临账号禁用的风险。
# 内存配置
登录节点的内存配置,可以通过 free 命令查看,例如:
$ free -h
              total        used        free      shared  buff/cache   available
Mem:            62G        8.3G         10G        4.7G         44G         27G
Swap:           67G        1.6G         66G
 2
3
4
其中:
- total:表示总内存大小,单位为 G。示例中,系统总内存为 64G,显示为 62G 是因为操作系统预留了 2G 内存,避免用户级应用申请过量内存时造成系统崩溃。
 
特别注意
对于登录节点,同 CPU 情况类似,内存资源也是多用户共用,因此当发生内存资源使用率过高的情况时,管理员运行的监控守护进程会 killed 掉用户占用内存过多的进程。
# 计算节点
计算节点是超算系统的计算节点,负责执行用户提交的作业。
查询计算节点的相关配置,可以通过以下命令:
srun -p debug lscpu  # 查看 CPU 配置
srun -p debug free -h # 查看内存配置
srun -p debug uname -a # 查看操作系统内核版本
srun -p debug cat /etc/os-release # 查看操作系统发行版本
 2
3
4
其中:
srun -p debug:表示在 debug 队列上执行命令。用户可以先试用sinfo命令查看可用队列名称,将debug替换为可用队列名称,再进行查看。
# 互联网络
网络互联类型,通常需要参考用户手册中关于网络配置的部分,用户级由于权限限制,有可能无法查看网络配置的详细信息。
如果用户希望进行互联网网络的速度测试,可以参考:
- 使用 OSU Micro-Benchmarks 网站进行 MPI 网络性能测试,网址为: http://mvapich.cse.ohio-state.edu/benchmarks/
 - 使用 iperf3 进行 TCP/IP 网络性能测试,网址为: https://iperf.fr/
 
# 存储系统
存储系统是超算系统的存储设备,负责存储用户提交的作业数据。
为方便应用程序的大规模并行计算,通常超算集群采用的存储为共享存储系统,即登录节点、计算节点共享同一套存储系统。
查询存储系统的相关配置,可以通过 df -h 命令查看,例如:
$ df -h
Filesystem             Size  Used Avail   Use%   Mounted on
121.16.48.1@o2ib:/fs1  1.0P  0.5P  0.5P   50%    /fs1
 2
3
Filesystem:表示文件系统的名称,以上 fs1 仅为 filesystem 的简写, 实际名称可能不同。
用户常用目录如下:
- /fs1/home: 用户的家目录,通常用于存放个人文件。
 - /fs1/software: 系统的软件目录,通常用于存放系统提供的软件。
 
用户默认会设置有存储配额限制,也就是说虽然整体集群的存储用户非常大,但分配给具体某个用户的存储空间是有限,用户在登录系统时,会自动显示配额信息,例如:
Disk quotas for grp username (gid 5001):
     Filesystem    used   quota   limit   grace    files     quota   limit   grace
          /fs1      20G    512G      1T       -     1000   1000000  2000000      -
 2
3
这部分内容的详细说明,详见下面的存储资源限制章节。