摘要
本申请公开了一种基于容器的算法训练平台故障自动处理方法及系统,所述方法包括:采集集群节点的运行指标,并根据所述运行指标识别故障节点;或通过查询和监听的方式监控集群业务命名空间下的容器对应的任务状态,根据所述任务状态识别故障节点;对识别的故障节点进行隔离及重启处理,并对重启的节点进行冷却处理;对冷却处理后的节点恢复任务执行状态,并根据恢复后的节点的任务执行结果将对应的节点从故障节点转换为正常节点。本申请基于k8s apiserver插件机制实现训练平台的监控和故障容器节点隔离指令的决策,解决k8s集群中的节点因硬件资源故障或者环境配置异常导致的AI算法训练平台任务频繁失败的问题。