一种动态计算环境下深度神经网络的分布式并行训练方法

申请号：CN202411880417

申请日期：2024-12-19

公开号：CN119808891B

公开日期：2025-12-05

类型：发明专利

摘要

本发明属于分布式系统优化与调度相关技术领域，具体涉及一种动态计算环境下深度神经网络的分布式并行训练方法，包括：通过最小化异步流水线的实际收敛时间，确定模型切分方案，并将该切分方案对应的各模型切片分发至对应设备节点上，其中，上述实际收敛时间为预设收敛误差所对应的迭代次数上限与单次迭代所需的流水线最优运行时间的乘积；每个设备节点上配置有已训练的轻量级随机森林模型，用于评估位于该设备节点的额外负载对位于该设备节点的模型切片的训练效率的干扰影响。启动训练后，实时获取由各设备节点上的随机森林模型所得到的干扰影响对应的干扰系数，通过模型搜索空间剪枝和遍历算法得到新的切分方案，并通过层迁移实现高效训练。

技术关键词

分布式并行训练方法深度神经网络模型随机森林模型遍历算法节点流水线切片分布式系统优化神经网络模型训练可读存储介质动态地数据总线时间段处理器操作系统误差优化器内存