作业管理
作业是用户在HPC集群中提交的一个任务,任务在HPC 集群的计算节点中运行,并输出结果。集群会对其中的作业进行统一的调度管理。
作业
页面提交作业
控制台提供了创建作业、停止作业、查看作业状态等功能,您可通过作业页面快速创建作业。
- 作业名称:用于标识作业,方便用户管理作业
- 作业执行命令:任务执行的具体内容,支持手动输入,也可以界面化选择执行的文件
- 作业优先级:输入数字,数字越大优先级越高
- 调度器队列:用于执行作业的队列,包含一组节点
- 标准输出路径:作业结果正常存入的位置
- 错误输出路径:作业有误时,结果和错误信息输出的位置
命令行提交作业
用户可SSH连接登录节点,使用slurm或者天云aip的命令来提交作业
slurm命令可参考文档:slurm官方文档
天云aip命令可参考:
命令行软件管理可module或者spack:
spack命令可参考:
作业列表
在集群中,可以查看作业列表
用户可以对作业任务的状态进行监控,有多种作业状态:正在运行、排队中、运行结束、失败、暂停、未知
删除/暂停列表
用户可以对作业进行暂停或者删除操作