一种应用于深度学习训练场景的多节点GPU集群调度方法

申请号：CN202411643695

申请日期：2024-11-18

公开号：CN119597465A

公开日期：2025-03-11

类型：发明专利

摘要

本发明公开了一种应用于深度学习训练场景的多节点GPU集群调度方法，所述方法主要包含以下步骤：S1：搭建深度学习模型；S2：输入训练数据并按照GPU数量进行切分；S3：对模型参数进行分片。S4：模型前向传播并进行GPU间数据通信。S5：模型反向传播并进行GPU间数据通信。S6：持续训练迭代，达到最大训练迭代次数后停止训练并保存模型权重。本发明针对多节点GPU集群调度进行优化，改善了通信方式，显著提高显存在深度学习场景下的利用率，在不增加硬件成本的情况下，使得训练更大的模型成为可能。

技术关键词

集群调度方法深度学习训练深度学习神经网络优化器节点场景浮点数数据通信深度学习框架更新模型参数指数分片方法符号深度学习模型通信结构神经网络模型