一种应用于异构训练集群的故障检测方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种应用于异构训练集群的故障检测方法
申请号:
CN202510221820
申请日期:
2025-02-27
公开号:
CN120371576A
公开日期:
2025-07-25
类型:
发明专利
摘要
本发明涉及一种应用于异构训练集群的故障检测方法,包括:基于定义的统一接口,启动检测流程;执行分组通信检测流程,若检测出故障节点,则输出检测结果、并结束当前检测流程,否则执行分组训练检测流程,并输出检测结果、结束当前检测流程。与现有技术相比,本发明能够准确高效检测出故障节点,解决单一通信检测检出率低、单一训练检测耗时久且成本高的问题,同时支持大规模异构训练集群的故障检测,能够支持任意的芯片,减少应用于异构训练集群的故障检测复杂度。
技术关键词
故障检测方法
检测出故障节点
通信检测功能
异构
集群
自定义脚本
接口
信息数据结构
标识符
芯片
复杂度
标记