创建集群
本指南旨在介绍 HPC 集群的主要属性、以及如何创建和几个主要管理功能入口等基本操作。
创建/申请集群
HPC 和 EHPC 是山河提供的两种不同的高性能计算模式。您可以申请 HPC 的使用权限,或者创建一个新的EHPC集群。
说明
创建EHPC集群之前,需要先创建 VPC 网络、私有网络和 NAS 挂载点。
申请 HPC 集群
HPC 是经典模式的高性能计算,云平台用户作为HPC集群的一个普通用户,可以提交作业,申请专属队列。
除了常见属性以外,还需要填写:
- 集群名称:用户定义的集群别名,可以用于区分不同的集群
- 用户名:用于在HPC集群中提交作业、创建专属队列
- 登录节点配置:用户专属的登录节点,可以自定义云服务器类型规格
- NAS挂载点:用户文件存储的目录,挂载后HPC集群可以对NAS中的文件进行读写
创建 EHPC 集群
创建 EHPC 集群主要分为三步:硬件配置、软件配置、管理配置
硬件配置
硬件配置主要是计算、存储、网络的配置
- 标准部署模式:登录节点、管控节点和计算节点分离部署,管控节点可以选2台或4台(HA)。
- 管控节点:为集群提供统一的作业调度服务和域账户管理服务
- 计算节点:执行高性能计算作业的节点
- 登录节点:用户可远程登录该节点,通过命令行操作EHPC集群(如:job 提交),用户还可以在该节点上自定义软件编译安装
- 桌面节点:为用户提供可视化服务,用户可以通过可视化节点预览查看作业结果
- NAS 挂载点:挂载点是NAS文件系统在网络环境中的连接点,以域名形式出现。
软件配置
完成硬件配置后,点击“下一步”按钮,进入软件配置界面
- 调度器:HPC集群上的作业调度软件。选择不同的作业调度软件,向集群提交作业时作业脚本和参数也会有不同。
- 软件:在HPC集群上部署的HPC软件,提供多种类型的典型配置软件包如GROMACS、OpenFOAM和LAMMPS等,包含相应的软件和运行环境依赖。
- 队列:默认已创建默认队列,用户可以另外自定义新的队列
- 域账户服务:提供统一的账户服务
管理配置
用户的自定义的集群属性,包括集群名称,集群描述,登录密码
集群列表
登录到管理控制台,点击HPC服务,转到HPC控制台,点击集群,将展示下图内容
图中的界面主要包括以下几部分信息:
集群状态
- 创建中/安装中/初始化中:HPC集群创建期间的状态,对应ECS实例创建/安装软件/初始化HPC管控等阶段。无需用户干预。
- 运行中:HPC集群创建完毕处于可用状态。注意:这是集群 唯一可以正常使用的状态 。
- 异常:请提交工单,我们会协助处理。
- 释放中:集群在停机释放过程中。
基本信息
- 集群ID :ID是青云平台自动分配的 HPC 唯一标识,
- 公网IP :该IP可定位到的 公网IP 界面,可以在公网IP详情页面查看流量的监控及计费情况等。
- 可用区 :关于可用区的说明,请参考地域和可用区。
- 创建时间 :集群创建开始安装时间。
- 集群描述 :在这里可以修改集群名称和对该集群的描述信息。集群名称 是用户在创建集群时赋予的名称,以明确区分集群,方便管理。
应用信息
- 操作系统:目前支持CentOS_7.2,操作系统会安装在所有节点中
- 调度器:目前支持slurm调度器,如需其他调度器,请通过工单或者您的客户经理提需求
- 软件管理:一键安装用户需要的软件系统
- 域账号服务:目前支持ldap,域账户服务会为所有的节点配置同样用户。
资源监控
- 计算节点:展示集群计算节点的总数,和当前处于不同状态的节点数
- CPU:展示集群计算节点的CPU总量,和当前计算节点的CPU使用量
- 内存:展示集群计算节点的内存总量,和当前计算节点的内存使用量
集群详情
集群详情页提供沉浸式的集群使用体验,所有的集群操作都可以在集群详情页完成。
集群详情页左侧包含集群的详细信息,包括基本信息
,应用信息
,存储信息
,扣费信息
。
节点管理
用户可以在节点管理页查看到集群的所有节点,节点的基本信息,状态,及监控
作业列表
在集群中,可以直接提交作业,并查看历史的作业列表,及作业详情
队列管理
队列是计算节点的集合,山河HPC队列分为共享队列和专属队列,共享队列是所有用户共同使用,专属队列归申请用户独占(需客户在线申请)。 提交作业需要指定提交的队列,调度器会根据队列分配到对应的计算节点,比如CPU计算选择共享队列、GPU计算选择AI共享队列。
用户管理
用户管理可管理HPC(登录点)、EHPC(登录点、管理点、计算点)中的账户信息,可删除用户、更新用户密码等
HPC集群节点上的默认用户是usr-xxxx
EHPC集群节点上的默认用户是admin
租赁信息
租赁信息统计集群中所有的收费资源,及各自的价格
扣费信息
扣费信息统计集群的历史扣费