AI算力集群的主动测试方法、装置、设备、介质和产品
申请号:CN202510012604
申请日期:2025-01-06
公开号:CN119415221B
公开日期:2025-04-11
类型:发明专利
摘要
本发明实施方式公开了AI算力集群的主动测试方法、装置、设备、介质和产品。方法包括:当确定到达主动测试时机时,预测AI算力集群中每个节点的可能故障类型及对应于所述可能故障类型的故障概率;基于每个节点的所述故障概率,从所述AI算力集群中确定测试节点;基于所述测试节点的可能故障类型,从包含N个测试任务的测试集中确定与所述可能故障类型相匹配的测试子集,所述测试子集包含M个测试任务,其中M与N都是正整数,M小于或等于N;基于所述测试子集,对所述测试节点执行测试。在出现故障之前执行主动测试,提高AI算力集群的整体稳定性和效率。基于预测结果针对性的选择测试子集,降低测试任务量。
技术关键词
故障预测模型
主动测试方法
节点
集群
离线
检测数据输入
计算机可读指令
人工神经网络
深度学习算法
机器学习算法
生成方式
测试模块
处理器
无监督
可读存储介质
深度学习模型
贪婪算法
覆盖率