平台架构
# 平台架构
# 登陆结点
作用:登陆结点为用户提供一个登陆系统的平台,用户可以通过 Internet 网络登录 VPN,然后通过 ssh 终端登录到登陆结点上。
登陆结点编号:LN1、LN2、LN3、LN8、LN9,其中 LN3 和 LN9 作为用户的数据传输结点,具体登陆方式见"登陆和数据传输"中的系统登陆部分。
登陆节点IP地址为::
- 名称:ln1,IP地址:192.168.2.3
- 名称:ln2,IP地址:192.168.2.4
- 名称:ln3,IP地址:192.168.2.5
- 名称:ln8,IP地址:192.168.2.8
- 名称:ln9,IP地址:192.168.2.9
提示
允许操作:在登陆结点上用户可以进行软件编译与调试,环境变量配置,作业提交,文件编辑,结果查看等操作。
警告
禁止操作:禁止用户直接在登陆结点上运行计算程序。
# 计算结点
计算结点本身没有本地硬盘,采用 ramdisk 精简内核系统,挂载共享存储,具备软件运行所需的运行环境。
计算结点采用 CPU+GPU
的架构,其具体配置如表所示:
指标 | 参数 | 备注 |
---|---|---|
CPU*2 | 型号 2块 * Intel Xeon CPU X5670 @ 2.93GHz 6cores | 一共12核心 |
GPU*1 | Nivida Tesla Fermi M2050 448cores 显存3GB | gpu_test分区可用 |
内存 | 24GB/48GB | 核数内存比为1:2或1:4 |
硬盘 | 没有本地硬盘, 挂载共享存储 | |
操作系统 | 版本 RHEL 5.3 内核 2.6.32 |
作用:计算结点为用户提供一个大规模并行计算资源,用户可以将自己的作业通过作业调度系统提交到计算结点上运行。计算结点上具备程序运行所需的运行环境,但不具备软件编译环境。
提示
用户在无作业的情况下无法直接登录到计算结点上,但可以通过 ssh 服务登录到正在运行用户自身作业的计算结点上查看自己程序的运行情况。
# 数据拷贝结点
数据拷贝结点为 NAS 存储服务器,支持 EXT3 文件系统,挂载共享存储。
提示
对于数据量巨大的用户,可以直接通过邮寄硬盘为用户提供数据拷贝服务。
# 互联网络
TH-1A 系统的互联网络由天河高速互联网络构成,这是一种高性能通信互联技术,具有超高通信效率、超低通信延迟的特点。单向点点通信带宽为 80 Gbp/s
。
作用:在天河系统中天河高速互联网络主要用于支持并行任务间的通信,并实现全局文件系统的数据传输。
# 存储
# Lustre 高性能存储
TH-1A 系统采用 Lustre 分布式存储文件系统,该文件系统由多个存储结点构成,对外提供一个统一的大分区,供所有登陆结点与计算结点进行挂载。
作用:Lustre 高性能存储用于用户进行计算任务的数据存储,用户在登陆系统后看到的数据存储在 Lustre 存储中。
注意
为了满足并行计算对共享存储的高速读写需求,Lustre 分布式存提供多副本服务,因此无法长期保证用户数据的安全,建议用户及时拷贝自己的核心数据结果。
建议
- 及时拷贝到本地;
- 用户可以将核心数据备份至近线海量存储中
中心为了保障绝大部分用户的使用体验,对用户存储空间进行了限制,详见"磁盘配额限制",希望大家及时清除共享存储上的无用数据。
# 核心数据备份区
功能已提供,手册待完善...
# 近线海量存储
作用:备份用户长期不用的数据
注意:近线海量存储系统用户备份用户的数据,用户可以将自己的核心数据备份至近线海量存储中。
# 避免误删
由于分布式存储系统上使用 rm
命令删除的数据很难找回,因此我们开发了 yhrm
命令供用户使用。该命令适用于删除文件或文件夹,使用该命令删除的数据会在系统特定路径下暂存 7
天,类似于 Windows
下的回收站。
例如用户账号为 myuser
,所在文件系统为 vol6
,那使用 yhrm
执行删除config.log
文件后,系统会提示是否删除对应数据,提示用户输入 y
或 n
,如果输入 y
,则指定数据会被 mv
至 /vol6/.Recycle/myuser/
当前删除操作的日期 /
下,命令行界面提示 Done successfully
;如果输入 n
,则不进行任何操作,命令行界面提示 Do nothing
。