HPC 用户指南

 

作业管理

更新时间 2020-02-28

作业是用户在HPC集群中提交的一个任务,任务在HPC 集群的计算节点中运行,并输出结果。集群会对其中的作业进行统一的调度管理。

作业

页面提交作业

控制台提供了创建作业、停止作业、查看作业状态等功能,您可通过作业页面快速创建作业。

  • 作业名称:用于标识作业,方便用户管理作业
  • 作业执行命令:任务执行的具体内容,支持手动输入,也可以界面化选择执行的文件
  • 作业优先级:输入数字,数字越大优先级越高
  • 调度器队列:用于执行作业的队列,包含一组节点
  • 标准输出路径:作业结果正常存入的位置
  • 错误输出路径:作业有误时,结果和错误信息输出的位置

命令行提交作业

用户可SSH连接登录节点,使用slurm或者天云aip的命令来提交作业

slurm命令可参考文档:slurm官方文档

天云aip命令可参考:

命令行软件管理可module或者spack:

spack命令可参考:

作业列表

在集群中,可以查看作业列表

用户可以对作业任务的状态进行监控,有多种作业状态:正在运行、排队中、运行结束、失败、暂停、未知

删除/暂停列表

用户可以对作业进行暂停或者删除操作

这篇文档解决了您的问题吗?
0
0