一种应用于异构训练集群的容错恢复系统及其方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种应用于异构训练集群的容错恢复系统及其方法
申请号:CN202510221818
申请日期:2025-02-27
公开号:CN120371575A
公开日期:2025-07-25
类型:发明专利
摘要
本发明涉及一种应用于异构训练集群的容错恢复系统及其方法,该系统包括调度层和功能层,功能层设置有预定义的统一接口,用于接入不同云厂商以及不同芯片,功能层用于执行日志监控、状态监控、节点检测以及告警通知流程;调度层用于执行训练任务监控、训练任务巡检、故障分析和训练恢复流程。该方法包括:基于预定义的统一接口,接入多个云厂商和多种芯片;执行容错恢复流程:轮询各训练任务状态,进行坏节点检测、将坏节点移除后重启该训练任务,同时进行相应告警提示;并针对参数服务进行检查和异常处理。与现有技术相比,本发明能够支持异构训练集群跨云厂商的训练容错,方便扩展多种异构芯片、提高训练效率。
技术关键词
容错恢复系统 异构 恢复方法 集群 节点 执行容错 接口 日志监控 芯片 巡检信息 指标 参数 通知 标识符 框架