使用限制
# 使用限制
TH-1A 系统上的作业管理系统以计算结点作为并行作业的资源分配单位,实现并行作业的调度运行。
在 TH-1A 系统中,所有在计算结点中运行的串行或并行应用程序,都必须通过资源管理系统来提交运行。资源管理系统首先将用户提交的 应用程序构造成作业进行排队处理,然后根据 TH-1A 系统的实时运行资源状态,决定何时以及在哪些计算结点中加载应用程序的运行,不同的应用程序之间不存在 资源的竞争冲突,用户可以通过作业管理系统来监控应用程序的运行。
但为了保证系统资源的高效使用,用户请求的快速响应,系统的稳定性,在系统中做出了相应的使用限制,相关限制如下:
# 计算分区限制
目前 TH-1A 系统,根据用户所在的共享存储不同以及权限不同,能够使用的计算分区也不相同,具体如下表所示:
通用分区:debug
分区,用于用户调试,最多使用 2个节点,24 CPU 核,运行 30 分钟。
专有分区:
表 用户分区限制
分区名称 | 分区含义 | 运行时间(h) | 使用权限 |
---|---|---|---|
TH_SR/TH_SR1/TH_SR2 | 包机时用户分区 | 无 | 由账号权限决定 |
TH_NET/TH_NET1/TH_NET2 | 包规模普通用户分区 | 2天 | 由账号权限决定 |
TH_NEW/TH_NEW1/TH_NEW2 | 包规模长队列用户分区 | 10天 | 由账号权限决定 |
TH_NEW/TH_NEW1/TH_NEW2 | 48GB内存分区 | 无 | 由账号权限决定 |
gpu_test | GPU分区 | 2天 | 由账号权限决定 |
其他分区 | 用户专有分求生 | 由账号权限决定 | 由账号权限决定 |
提示
用户可以使用yhi用户可以使用
yhi -l或
yhcontrol show partition partition_name`命令,看到相应的分区限制信息。
若用户使用包机时分区(如 TH_SR, TH_SR1, TH_SR2),建议在提交作业时--time
选项,以限制作业运行的最长时间为指定时间,避免因作业错误计算或
长期无人查看导致机时浪费的情况。
TH_BM 分区为 48GB 大内存分区,有需要的用户请跟我们应用部联系。
所有分区均可以设定相应允许的用户队列,中心根据用户的不同分类,划分不同的资源,您如果看不到某些分区,是因为您不具备相应的资源使用权限。
提示
- 由于大型集群系统具备一定故障率,TH-1A 系统系统十分庞大,为了保证系统稳定性,分区中有限定任务执行时间的限制,因此建议用户为程序设立“断 点”从而保证任务由于意外中断后,可以继续运算。
- debug 是用户调试分区,每个用户都可以使用最大 2 个结点 24 核的资源,作业时间限制为 30 分钟。
# 用户权限限制
除了上述的分区限制,目前还根据用户的申请情况,针对用户做了一定的限制,该限制主要基于用户和中心签订合同的规模。
包括:最多可以使用的结点数、最多可以使用的核数、单个任务最多可以使用的结点数、单个任务最多可以使用的核数等。
通过命令yhacctmgr list association
可查看自己账号的具体权限设置。用户只有查看自己账号的权限,无查询其他账号的权限。
用户在使用过程中,如果有超出自己合同范围内的计算规模的计算需求,请基于自己的需求,向中心提出申请,中心会根据用户需要审查后,进行一定的修改。
为了保证系统和用户数据的安全,目前普通用户不能在没有申请资源时,就ssh 链接到计算结点,只有分配了相应的计算结点资源后,才能 ssh 到指定计算结点。
# 磁盘配额限制
为了合理利用有限的存储资源,目前中心对用户默认进行存储软限制 500G,存储硬限制 1T,文件数软限制 100 万,文件数硬限制 200 万的磁盘配额限制。
# 登录后显示
登陆系统后,通常就会显示该用户所属group(即用户组)的存储情况:
Disk quotas for group zhenggang (gid 5005):
Filesystem used quota limit grace files quota limit grace
/vol-th 123G 500G 1T - 123 1000000 2000000 -
2
3
关键词 | 含义 |
---|---|
Filesystem | 用户所在的共享分布式存储 |
used | 用户目前已经使用的存储(单位KB) |
quota | 存储软限制(单位KB) |
limit | 存储硬限制(单位KB) |
grace | 存储状态 |
files | 用户已有的文件数量(单位:个) |
quota | 文件数量软限制(单位:个) |
limit | 文件数量硬限制(单位:个) |
grace | 文件数量状态 |
# 使用命令查询
lfs quota -g `whoami` `echo $HOME | awk -F / '{print "/"$2}'` # 查询用户组
lfs quota -u `whoami` `echo $HOME | awk -F / '{print "/"$2}'` # 查询用户
2
# 详细说明
为了合理利用有限的存储资源,目前中心对用户默认进行存储软限制500G
,存储硬限制1T
,文件数软限制100万
,文件数硬限制200万
的磁盘配额限制。
1)用户使用存储低于500G时,存储状态正常;
Disk quotas for group zhenggang (gid 5005):
Filesystem used quota limit grace files quota limit grace
/vol-th 123G 500G 1T - 123 1000000 2000000 -
2
3
2)当用户使用存储介于500G
和1T
之间时,used参数对应的数字带有“*”表示用户配额异常,“6d23h59m57s”表示倒计时,如果用户在倒计时结束前将使用存储清理到500G
以下,则存储状态恢复正常。
Disk quotas for group zhenggang (gid 5005):
Filesystem used quota limit grace files quota limit grace
/vol-th 768G* 500G 1T 6d23h59m57s 12345 1000000 2000000 -
2
3
3)如果在规定时间,否则用户的数据量超出软限制且超出倒计时,则无法使用了。
Disk quotas for group zhenggang (gid 5005):
Filesystem used quota limit grace files quota limit grace
/vol-th 768G* 500G 1T none 12345 1000000 2000000 -
2
3
4)如果用户数据在倒计时期间继续增长,超出硬限制,则用户存储将无法写入,如图3-4所示;数据操作也会受限制,如图3-5所示。
Disk quotas for group zhenggang (gid 5005):
Filesystem used quota limit grace files quota limit grace
/vol-th 1.2T* 500G 1T - 45678 1000000 2000000 -
2
3
注意
有的时候用户登录会出现错误提示 "Some errors happened when getting quota info. Some devices may be not working or deactivated. The data in "[]" is inaccurate." 这是因为登陆结点quota服务没有启用,对用户本身的操作和作业不会有影响。
提示
- 存储是有配额限制的:超出软限制,开启倒计时,倒计时到期就用不了了;超出硬限制,直接就用不了了。
- 查询配额,可以开启新终端登陆时自动显示,或通过命令查询
lfs quota -g -h zhenggang
,请将命令中的zhenggang
改为自己的帐户名。 - 当配额出现
*
时,请及时清理数据。 - 免费配额不足,可以申请购买哦,联系我们 (opens new window)。