一种应用于深度学习训练场景的多节点GPU集群调度方法
申请号:CN202411643695
申请日期:2024-11-18
公开号:CN119597465A
公开日期:2025-03-11
类型:发明专利
摘要
本发明公开了一种应用于深度学习训练场景的多节点GPU集群调度方法,所述方法主要包含以下步骤:S1:搭建深度学习模型;S2:输入训练数据并按照GPU数量进行切分;S3:对模型参数进行分片。S4:模型前向传播并进行GPU间数据通信。S5:模型反向传播并进行GPU间数据通信。S6:持续训练迭代,达到最大训练迭代次数后停止训练并保存模型权重。本发明针对多节点GPU集群调度进行优化,改善了通信方式,显著提高显存在深度学习场景下的利用率,在不增加硬件成本的情况下,使得训练更大的模型成为可能。
技术关键词
集群调度方法
深度学习训练
深度学习神经网络
优化器
节点
场景
浮点数
数据通信
深度学习框架
更新模型参数
指数
分片方法
符号
深度学习模型
通信结构
神经网络模型