HPC 快速入门

 

HPC 快速入门

更新时间 2020-02-28

总览

本指南旨在介绍 HPC 集群的主要属性、以及如何创建和几个主要管理功能入口等基本操作。

集群列表

登录到管理控制台,点击HPC服务,转到HPC控制台,点击集群,将展示下图内容

图中的界面主要包括以下几部分信息:

集群状态

  • 创建中/安装中/初始化中:HPC集群创建期间的状态,对应ECS实例创建/安装软件/初始化HPC管控等阶段。无需用户干预。
  • 运行中:HPC集群创建完毕处于可用状态。注意:这是集群 唯一可以正常使用的状态 。
  • 异常:请提交工单,我们会协助处理。
  • 释放中:集群在停机释放过程中。

基本信息

  • 集群ID :ID是山河平台自动分配的 HPC 唯一标识,
  • 公网IP :该IP可定位到的 公网IP 界面,可以在公网IP详情页面查看流量的监控及计费情况等。
  • 可用区 :关于可用区的说明,请参考地域和可用区。
  • 创建时间 :集群创建开始安装时间。
  • 集群描述 :在这里可以修改集群名称和对该集群的描述信息。集群名称 是用户在创建集群时赋予的名称,以明确区分集群,方便管理。

应用信息

  • 操作系统:目前支持CentOS_7.2,操作系统会安装在所有节点中
  • 调度器:目前支持slurm调度器,如需其他调度器,请通过工单或者您的客户经理提需求
  • 软件管理:一键安装用户需要的软件系统
  • 域账号服务:目前支持ldap,域账户服务会为所有的节点配置同样用户。

资源监控

  • 计算节点:展示集群计算节点的总数,和当前处于不同状态的节点数
  • CPU:展示集群计算节点的CPU总量,和当前计算节点的CPU使用量
  • 内存:展示集群计算节点的内存总量,和当前计算节点的内存使用量

集群详情

集群详情页提供沉浸式的集群使用体验,所有的集群操作都可以在集群详情页完成。

集群详情页左侧包含集群的详细信息,包括基本信息应用信息存储信息扣费信息

节点管理

用户可以在节点管理页查看到集群的所有节点,节点的基本信息,状态,及监控

作业列表

在集群中,可以直接提交作业,并查看历史的作业列表,及作业详情

队列管理

队列是计算节点的集合,山河HPC队列分为共享队列和专属队列,共享队列是所有用户共同使用,专属队列归申请用户独占(需客户在线申请)。 提交作业需要指定提交的队列,调度器会根据队列分配到对应的计算节点,比如CPU计算选择共享队列、GPU计算选择AI共享队列。

用户管理

用户管理可管理HPC(登录点)、EHPC(登录点、管理点、计算点)中的账户信息,可删除用户、更新用户密码等

HPC集群节点上的默认用户是usr-xxxx

EHPC集群节点上的默认用户是admin

租赁信息

租赁信息统计集群中所有的收费资源,及各自的价格

扣费信息

扣费信息统计集群的历史扣费

这篇文档解决了您的问题吗?
0
0