超算小站 超算小站
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
首页
  • 注册账号
  • 登录系统
  • 熟悉系统
  • 配置环境
  • 数据管理
  • 作业管理
  • 集群软件环境:

    • 01.编译环境
    • 02.基础库
    • 03.应用软件
    • 04.工具软件
    • 05.常用语言环境
    • 06.使用进阶
  • 入门课程

    • 01.超算历史
    • 02.VPN登录
    • 03.Mobaxterm工具
    • 04.Linux基本命令
    • 05.Module环境变量管理工具
    • 06.Vim文本编辑器使用
    • 07.Slurm作业管理系统
HPC&AI
  • 01.登录问题
  • 02.编译问题
  • 03.作业问题
  • 04.存储和数据问题
  • 05.GPU问题
资料下载
归档
关于我
🚀试用
  • 注册账号

  • 登录系统

  • 熟悉系统

    • 硬件资源
      • 硬件配置
        • 登陆节点
        • 计算节点
        • 互联网络
        • 存储系统
    • 用户资源
  • 配置环境

  • 数据管理

  • 作业管理

  • 技术支持
  • 用户手册
  • 熟悉系统
mrzhenggang
2024-02-07
目录

硬件资源

# 硬件配置

超算系统通常可以分为以下几个部分:登陆节点、计算节点、互联网络和存储系统等,系统配置在各套系统对应的用户手册中均有详细说明,此处介绍一下如何进行实际配置的检查。

# 登陆节点

登陆节点是超算系统的入口,用户通过该节点登陆系统,可以看到系统的欢迎界面、系统的基本配置。

# 操作系统

登录节点的操作系统内核版本,可以通过 uname -a 命令查看,例如:

$ uname -a
Linux ln0 3.10.0-693.el7.x86_64 #1 SMP Thu Jul 6 19:56:57 EDT 2017 x86_64 x86_64 x86_64 GNU/Linux
1
2

说明:

  • Linux 操作系统类型
  • ln 是 主机名 hostname
  • 3.10.0 是内核版本
  • el7 是基于 Red Hat Enterprise Linux (RHEL) 7 的内核版本
  • x86_64 是基于 64 位 x86 架构

登录节点的操作系统发行版本,可以通过 cat /etc/redhat-release 命令查看,例如:

$ cat /etc/os-release
NAME="Red Hat Enterprise Linux Server"
VERSION="7.2 (Maipo)"
ID="rhel"
ID_LIKE="fedora"
VERSION_ID="7.2"
PRETTY_NAME="Red Hat Enterprise Linux Server 7.2 (Maipo)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:redhat:enterprise_linux:7.2:GA:server"
HOME_URL="https://www.redhat.com/"
BUG_REPORT_URL="https://bugzilla.redhat.com/"

REDHAT_BUGZILLA_PRODUCT="Red Hat Enterprise Linux 7"
REDHAT_BUGZILLA_PRODUCT_VERSION=7.2
REDHAT_SUPPORT_PRODUCT="Red Hat Enterprise Linux"
REDHAT_SUPPORT_PRODUCT_VERSION="7.2"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

TIPS

通常用户可能不需要特别关心所使用的操作系统类型和版本,只有当出现某需要运行的程序出现兼容性问题时,可以通过系统命令查询,并检查该程序对操作系统版本的兼容性情况。

# CPU 配置

登录节点的 CPU 配置,可以通过 lscpu 命令查看,例如:

$ lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                40
On-line CPU(s) list:   0-39
Thread(s) per core:    2
Core(s) per socket:    10
座:                   2
NUMA 节点:            2
厂商 ID:              GenuineIntel
CPU 系列:             6
型号:                 62
型号名称:             Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz
步进:                 4
CPU MHz:             3109.531
BogoMIPS:            5606.25
虚拟化:               VT-x
L1d 缓存:             32K
L1i 缓存:             32K
L2 缓存:              256K
L3 缓存:              25600K
NUMA 节点0 CPU:       0-9,20-29
NUMA 节点1 CPU:       10-19,30-39
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

其中:

  • CPU(s):表示 CPU 核数。
  • Model name(型号名称):表示 CPU 型号。

特别注意

由于登录节点为多用户共享使用,因此禁止用户在登录节点进行任务计算,以及并行编译。避免某单一用户占用过多 CPU 资源导致登录节点卡死问题的出现。 登录节点运行有监控守护进程,当发现违规行为,初次进行警告。如多次违规,可能会面临账号禁用的风险。

# 内存配置

登录节点的内存配置,可以通过 free 命令查看,例如:

$ free -h
              total        used        free      shared  buff/cache   available
Mem:            62G        8.3G         10G        4.7G         44G         27G
Swap:           67G        1.6G         66G
1
2
3
4

其中:

  • total:表示总内存大小,单位为 G。示例中,系统总内存为 64G,显示为 62G 是因为操作系统预留了 2G 内存,避免用户级应用申请过量内存时造成系统崩溃。

特别注意

对于登录节点,同 CPU 情况类似,内存资源也是多用户共用,因此当发生内存资源使用率过高的情况时,管理员运行的监控守护进程会 killed 掉用户占用内存过多的进程。

# 计算节点

计算节点是超算系统的计算节点,负责执行用户提交的作业。

查询计算节点的相关配置,可以通过以下命令:

srun -p debug lscpu  # 查看 CPU 配置
srun -p debug free -h # 查看内存配置
srun -p debug uname -a # 查看操作系统内核版本
srun -p debug cat /etc/os-release # 查看操作系统发行版本
1
2
3
4

其中:

  • srun -p debug:表示在 debug 队列上执行命令。用户可以先试用 sinfo 命令查看可用队列名称,将 debug 替换为可用队列名称,再进行查看。

# 互联网络

网络互联类型,通常需要参考用户手册中关于网络配置的部分,用户级由于权限限制,有可能无法查看网络配置的详细信息。

如果用户希望进行互联网网络的速度测试,可以参考:

  • 使用 OSU Micro-Benchmarks 网站进行 MPI 网络性能测试,网址为: http://mvapich.cse.ohio-state.edu/benchmarks/
  • 使用 iperf3 进行 TCP/IP 网络性能测试,网址为: https://iperf.fr/

# 存储系统

存储系统是超算系统的存储设备,负责存储用户提交的作业数据。

为方便应用程序的大规模并行计算,通常超算集群采用的存储为共享存储系统,即登录节点、计算节点共享同一套存储系统。

查询存储系统的相关配置,可以通过 df -h 命令查看,例如:

$ df -h
Filesystem             Size  Used Avail   Use%   Mounted on
121.16.48.1@o2ib:/fs1  1.0P  0.5P  0.5P   50%    /fs1
1
2
3

Filesystem:表示文件系统的名称,以上 fs1 仅为 filesystem 的简写, 实际名称可能不同。

用户常用目录如下:

  • /fs1/home: 用户的家目录,通常用于存放个人文件。
  • /fs1/software: 系统的软件目录,通常用于存放系统提供的软件。

用户默认会设置有存储配额限制,也就是说虽然整体集群的存储用户非常大,但分配给具体某个用户的存储空间是有限,用户在登录系统时,会自动显示配额信息,例如:

Disk quotas for grp username (gid 5001):
     Filesystem    used   quota   limit   grace    files     quota   limit   grace
          /fs1      20G    512G      1T       -     1000   1000000  2000000      -
1
2
3

这部分内容的详细说明,详见下面的存储资源限制章节。

修改密码
用户资源

← 修改密码 用户资源→

Theme by Vdoing | Copyright © 2015-2024 Zheng Gang | MIT License | 津ICP备2021008634号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×