一种用于分层网络的分布式训练方法及系统

申请号：CN202511193632

申请日期：2025-08-25

公开号：CN121031718A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种用于分层网络的分布式训练方法及系统，属于分布式机器学习技术领域，用于解决目前缺乏专为分层网络设计的能够协同优化各层级通信效率，同时保证模型训练精度和稳定性的分布式训练方法，无法满足分层网络通信需求的技术问题。包括：工作节点基于初始模型参数及本地数据，计算局部随机梯度；对局部随机梯度进行量化压缩，得到量化梯度并上传到边缘节点；边缘节点对各个工作节点发送的量化梯度进行聚合，得到聚合梯度并进行误差补偿；对误差补偿后的聚合梯度进行稀疏化压缩处理，得到稀疏化梯度并上传到中央服务器；中央服务器对各个边缘节点发送的稀疏化梯度进行全局聚合，得到全局梯度；根据全局梯度与预设学习率，更新模型参数。

技术关键词

分布式训练方法节点分布式训练系统服务器分层分布式机器学习技术压缩器压缩处理过程参数更新模块更新模型参数数据通信效率计算误差网络通信层级精度