新闻公告
高性能计算平台推出“低效作业主动告警增值服务”
更新日期:2020年04月03日 17:34

为提高运行效率、避免机时浪费,高性能计算平台面向用户推出“低效作业主动告警增值服务”,以邮件告警形式告知低效作业操作,提醒用户修改作业脚本,节省资源。

低效作业是指在高性能计算平台运行过程中,作业指定计算资源与实际运行需求不匹配,从而导致运行状态异常造成机时浪费的一类作业。申请节点过多并行效率遇到瓶颈、单节点作业申请了多节点资源、单线程作业申请了整个节点资源,是低效作业的常见原因。

超算平台根据估算的每个作业CPU核心、内存使用需求与用户申请数量对比,若发现设置不合理,则会发送“告警”邮件并给出调整建议,用户可根据建议修改:

undefined

收到此类建议的作业,建议减少作业所用的计算节点数。

undefined

收到此类建议的作业,请重新提交到CPU队列使用单节点运行。

undefined

收到此类建议的作业,请重新提交到small队列使用单核心运行。

如有疑问,请发送邮件至hpc@sjtu.edu.cn咨询。

Baidu
map