一种基于动态检查点策略的大模型分布式训练故障处理方法

申请号：CN202510820987

申请日期：2025-06-19

公开号：CN120317318B

公开日期：2025-08-29

类型：发明专利

摘要

本发明属于大模型分布式训练领域，特别涉及一种基于动态检查点策略的大模型分布式训练故障处理方法。包括：（1）集群拓扑和环境动态感知的检查点分布式存取策略（2）变化趋势感知的大模型迭代时间预测方法（3）模型训练迭代时间和趋势感知的检查点频率决策方法。本发明解决了传统检查点恢复过程中的速度和损失问题，还通过动态调整检查点更新频率，优化了资源利用率，减少了训练过程中的冗余开销。这些改进使得大规模深度学习模型在面对复杂训练环境时，能够更加灵活和高效地应对故障，确保训练的连续性和稳定性，从而为大模型训练技术的发展提供了新的思路和方向。

技术关键词

检查点分布式训练环境动态感知存取策略副本内存集群时间预测方法决策方法序列频率历史故障信息数据中心内部网络 LSTM模型深度Q网络动态分层决策节点