一种应用于深度学习训练场景的多节点GPU集群调度方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种应用于深度学习训练场景的多节点GPU集群调度方法
申请号:CN202411643695
申请日期:2024-11-18
公开号:CN119597465A
公开日期:2025-03-11
类型:发明专利
摘要
本发明公开了一种应用于深度学习训练场景的多节点GPU集群调度方法,所述方法主要包含以下步骤:S1:搭建深度学习模型;S2:输入训练数据并按照GPU数量进行切分;S3:对模型参数进行分片。S4:模型前向传播并进行GPU间数据通信。S5:模型反向传播并进行GPU间数据通信。S6:持续训练迭代,达到最大训练迭代次数后停止训练并保存模型权重。本发明针对多节点GPU集群调度进行优化,改善了通信方式,显著提高显存在深度学习场景下的利用率,在不增加硬件成本的情况下,使得训练更大的模型成为可能。
技术关键词
集群调度方法 深度学习训练 深度学习神经网络 优化器 节点 场景 浮点数 数据通信 深度学习框架 更新模型参数 指数 分片方法 符号 深度学习模型 通信结构 神经网络模型