一种基于容器的算法训练平台故障自动处理方法及系统

申请号：CN202410858878

申请日期：2024-06-28

公开号：CN118606005A

公开日期：2024-09-06

类型：发明专利

摘要

本申请公开了一种基于容器的算法训练平台故障自动处理方法及系统，所述方法包括：采集集群节点的运行指标，并根据所述运行指标识别故障节点；或通过查询和监听的方式监控集群业务命名空间下的容器对应的任务状态，根据所述任务状态识别故障节点；对识别的故障节点进行隔离及重启处理，并对重启的节点进行冷却处理；对冷却处理后的节点恢复任务执行状态，并根据恢复后的节点的任务执行结果将对应的节点从故障节点转换为正常节点。本申请基于k8s apiserver插件机制实现训练平台的监控和故障容器节点隔离指令的决策，解决k8s集群中的节点因硬件资源故障或者环境配置异常导致的AI算法训练平台任务频繁失败的问题。

技术关键词

识别故障容器集群节点状态算法平台指标历史运行状态插件机制可读存储介质识别标签处理器识别模块存储器计算机污点车辆数据