摘要
本发明涉及一种应用于异构训练集群的容错恢复系统及其方法,该系统包括调度层和功能层,功能层设置有预定义的统一接口,用于接入不同云厂商以及不同芯片,功能层用于执行日志监控、状态监控、节点检测以及告警通知流程;调度层用于执行训练任务监控、训练任务巡检、故障分析和训练恢复流程。该方法包括:基于预定义的统一接口,接入多个云厂商和多种芯片;执行容错恢复流程:轮询各训练任务状态,进行坏节点检测、将坏节点移除后重启该训练任务,同时进行相应告警提示;并针对参数服务进行检查和异常处理。与现有技术相比,本发明能够支持异构训练集群跨云厂商的训练容错,方便扩展多种异构芯片、提高训练效率。