面向分布式Transformer训练的梯度有界丢失容忍的传输优化方法

申请号：CN202510449151

申请日期：2025-04-10

公开号：CN119996533B

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种面向分布式Transformer训练的梯度有界丢失容忍的传输优化方法。该方法利用UDP协议的低延迟特性，结合Transformer大模型训练对梯度有界丢失的容忍性，在应用层实现丢包率检测、重传机制、拥塞控制和可靠传输，并在UDP数据部分中添加自定义头部。具体地，将梯度张量分块并编号，通过UDP传输，然后计算丢包率，超过阈值则触发重传机制；接着聚合已接收数据块更新模型参数；最后根据ACK接收速率进行拥塞控制，动态调整发送速率。本发明能够有效减少拥塞和尾部延迟，提高分布式Transformer大模型训练的效率。

技术关键词

传输优化方法节点服务器数据包发送速率速率控制传输模块分片消息链路重传机制重传数据包更新模型参数重传策略通畅状态动态定时器指针