摘要
本发明公开了面向大模型训练的智算集群并行训练性能优化方法,涉及人工智能计算技术领域,本发明通过实时采集智算集群中异构计算节点的硬件特征指标,构建硬件拓扑图谱,并计算适用于硬件拓扑图谱的最优算力组合,采用自适应路由算法选择最优通信路径,并结合混合精度压缩技术对传输数据进行编解码,实现传输数据的高效传输,基于深度学习算法构建故障预测模型,将硬件监控日志中的实时数据输入故障预测模型中得到预测结果,并根据预设的结果分级标准对预测结果进行分级存储,并基于预测结果训练检查点以实现快速恢复,提升超节点算力利用率,同时可根据网络拥塞状态动态调整通信路径,提升故障恢复速度。