面向大模型训练的智算集群并行训练性能优化方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向大模型训练的智算集群并行训练性能优化方法
申请号:CN202511032757
申请日期:2025-07-25
公开号:CN120804914A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了面向大模型训练的智算集群并行训练性能优化方法,涉及人工智能计算技术领域,本发明通过实时采集智算集群中异构计算节点的硬件特征指标,构建硬件拓扑图谱,并计算适用于硬件拓扑图谱的最优算力组合,采用自适应路由算法选择最优通信路径,并结合混合精度压缩技术对传输数据进行编解码,实现传输数据的高效传输,基于深度学习算法构建故障预测模型,将硬件监控日志中的实时数据输入故障预测模型中得到预测结果,并根据预设的结果分级标准对预测结果进行分级存储,并基于预测结果训练检查点以实现快速恢复,提升超节点算力利用率,同时可根据网络拥塞状态动态调整通信路径,提升故障恢复速度。
技术关键词
性能优化方法 故障预测模型 检查点 监控日志 集群 人工智能计算技术 NVMe固态硬盘 网络拓扑结构构建 图谱 深度学习算法 堆栈信息 节点 层次聚类算法 分布式对象 BGP协议 时间序列特征 实时数据 编解码 插补算法