面向分布式Transformer训练的梯度有界丢失容忍的传输优化方法
申请号:CN202510449151
申请日期:2025-04-10
公开号:CN119996533B
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开了一种面向分布式Transformer训练的梯度有界丢失容忍的传输优化方法。该方法利用UDP协议的低延迟特性,结合Transformer大模型训练对梯度有界丢失的容忍性,在应用层实现丢包率检测、重传机制、拥塞控制和可靠传输,并在UDP数据部分中添加自定义头部。具体地,将梯度张量分块并编号,通过UDP传输,然后计算丢包率,超过阈值则触发重传机制;接着聚合已接收数据块更新模型参数;最后根据ACK接收速率进行拥塞控制,动态调整发送速率。本发明能够有效减少拥塞和尾部延迟,提高分布式Transformer大模型训练的效率。
技术关键词
传输优化方法
节点
服务器
数据包发送速率
速率控制
传输模块
分片
消息
链路
重传机制
重传数据包
更新模型参数
重传策略
通畅状态
动态
定时器
指针