一种应用于异构训练集群的故障检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种应用于异构训练集群的故障检测方法
申请号:CN202510221820
申请日期:2025-02-27
公开号:CN120371576A
公开日期:2025-07-25
类型:发明专利
摘要
本发明涉及一种应用于异构训练集群的故障检测方法,包括:基于定义的统一接口,启动检测流程;执行分组通信检测流程,若检测出故障节点,则输出检测结果、并结束当前检测流程,否则执行分组训练检测流程,并输出检测结果、结束当前检测流程。与现有技术相比,本发明能够准确高效检测出故障节点,解决单一通信检测检出率低、单一训练检测耗时久且成本高的问题,同时支持大规模异构训练集群的故障检测,能够支持任意的芯片,减少应用于异构训练集群的故障检测复杂度。
技术关键词
故障检测方法 检测出故障节点 通信检测功能 异构 集群 自定义脚本 接口 信息数据结构 标识符 芯片 复杂度 标记