分布式训练自适应梯度量化与在网聚合方法

申请号：CN202510978728

申请日期：2025-07-16

公开号：CN120935195A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了分布式训练自适应梯度量化与在网聚合方法，包括步骤：每个工作节点根据可用带宽预设初始量化级别；每个工作节点对原始浮点数梯度数据进行量化处理，生成梯度数据包；每个工作节点根据自身的量化级别发送相应的梯度数据包给聚合交换机；工作节点根据聚合交换机返回的GACK调整量化级别和发送速率；聚合交换机对梯度数据包进行聚合；聚合交换机将聚合结果包发送给参数服务器进行处理，聚合交换机再将参数服务器处理后聚合结果包发送回所有工作节点；每个工作节点根据聚合结果包调整发送速率，进行解码处理，更新模型参数，继续进行训练。本发明解决现有技术中在缓解通信瓶颈时过度压缩通信量造成精度损失过度的技术问题。

技术关键词

分布式训练交换机节点浮点数更新模型参数计算机程序指令拥塞状态信息拥塞控制算法数据速率电子设备处理器通信通信量服务器可读存储介质解码精度