HPC 用户指南

 

创建集群

更新时间 2020-02-28

本指南旨在介绍 HPC 集群的主要属性、以及如何创建和几个主要管理功能入口等基本操作。

创建/申请集群

HPC 和 EHPC 是山河提供的两种不同的高性能计算模式。您可以申请 HPC 的使用权限,或者创建一个新的EHPC集群。

说明

创建EHPC集群之前,需要先创建 VPC 网络、私有网络和 NAS 挂载点。

申请 HPC 集群

HPC 是经典模式的高性能计算,云平台用户作为HPC集群的一个普通用户,可以提交作业,申请专属队列。

除了常见属性以外,还需要填写:

  • 集群名称:用户定义的集群别名,可以用于区分不同的集群
  • 用户名:用于在HPC集群中提交作业、创建专属队列
  • 登录节点配置:用户专属的登录节点,可以自定义云服务器类型规格
  • NAS挂载点:用户文件存储的目录,挂载后HPC集群可以对NAS中的文件进行读写

创建 EHPC 集群

创建 EHPC 集群主要分为三步:硬件配置、软件配置、管理配置

硬件配置

硬件配置主要是计算、存储、网络的配置

  • 标准部署模式:登录节点、管控节点和计算节点分离部署,管控节点可以选2台或4台(HA)。
  • 管控节点:为集群提供统一的作业调度服务和域账户管理服务
  • 计算节点:执行高性能计算作业的节点
  • 登录节点:用户可远程登录该节点,通过命令行操作EHPC集群(如:job 提交),用户还可以在该节点上自定义软件编译安装
  • 桌面节点:为用户提供可视化服务,用户可以通过可视化节点预览查看作业结果

  • NAS 挂载点:挂载点是NAS文件系统在网络环境中的连接点,以域名形式出现。

软件配置

完成硬件配置后,点击“下一步”按钮,进入软件配置界面

  • 调度器:HPC集群上的作业调度软件。选择不同的作业调度软件,向集群提交作业时作业脚本和参数也会有不同。
  • 软件:在HPC集群上部署的HPC软件,提供多种类型的典型配置软件包如GROMACS、OpenFOAM和LAMMPS等,包含相应的软件和运行环境依赖。
  • 队列:默认已创建默认队列,用户可以另外自定义新的队列
  • 域账户服务:提供统一的账户服务

管理配置

用户的自定义的集群属性,包括集群名称,集群描述,登录密码

集群列表

登录到管理控制台,点击HPC服务,转到HPC控制台,点击集群,将展示下图内容

图中的界面主要包括以下几部分信息:

集群状态

  • 创建中/安装中/初始化中:HPC集群创建期间的状态,对应ECS实例创建/安装软件/初始化HPC管控等阶段。无需用户干预。
  • 运行中:HPC集群创建完毕处于可用状态。注意:这是集群 唯一可以正常使用的状态 。
  • 异常:请提交工单,我们会协助处理。
  • 释放中:集群在停机释放过程中。

基本信息

  • 集群ID :ID是青云平台自动分配的 HPC 唯一标识,
  • 公网IP :该IP可定位到的 公网IP 界面,可以在公网IP详情页面查看流量的监控及计费情况等。
  • 可用区 :关于可用区的说明,请参考地域和可用区。
  • 创建时间 :集群创建开始安装时间。
  • 集群描述 :在这里可以修改集群名称和对该集群的描述信息。集群名称 是用户在创建集群时赋予的名称,以明确区分集群,方便管理。

应用信息

  • 操作系统:目前支持CentOS_7.2,操作系统会安装在所有节点中
  • 调度器:目前支持slurm调度器,如需其他调度器,请通过工单或者您的客户经理提需求
  • 软件管理:一键安装用户需要的软件系统
  • 域账号服务:目前支持ldap,域账户服务会为所有的节点配置同样用户。

资源监控

  • 计算节点:展示集群计算节点的总数,和当前处于不同状态的节点数
  • CPU:展示集群计算节点的CPU总量,和当前计算节点的CPU使用量
  • 内存:展示集群计算节点的内存总量,和当前计算节点的内存使用量

集群详情

集群详情页提供沉浸式的集群使用体验,所有的集群操作都可以在集群详情页完成。

集群详情页左侧包含集群的详细信息,包括基本信息应用信息存储信息扣费信息

节点管理

用户可以在节点管理页查看到集群的所有节点,节点的基本信息,状态,及监控

作业列表

在集群中,可以直接提交作业,并查看历史的作业列表,及作业详情

队列管理

队列是计算节点的集合,山河HPC队列分为共享队列和专属队列,共享队列是所有用户共同使用,专属队列归申请用户独占(需客户在线申请)。 提交作业需要指定提交的队列,调度器会根据队列分配到对应的计算节点,比如CPU计算选择共享队列、GPU计算选择AI共享队列。

用户管理

用户管理可管理HPC(登录点)、EHPC(登录点、管理点、计算点)中的账户信息,可删除用户、更新用户密码等

HPC集群节点上的默认用户是usr-xxxx

EHPC集群节点上的默认用户是admin

租赁信息

租赁信息统计集群中所有的收费资源,及各自的价格

扣费信息

扣费信息统计集群的历史扣费

这篇文档解决了您的问题吗?
0
0