面向分布式Transformer训练的梯度有界丢失容忍的传输优化方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向分布式Transformer训练的梯度有界丢失容忍的传输优化方法
申请号:CN202510449151
申请日期:2025-04-10
公开号:CN119996533B
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开了一种面向分布式Transformer训练的梯度有界丢失容忍的传输优化方法。该方法利用UDP协议的低延迟特性,结合Transformer大模型训练对梯度有界丢失的容忍性,在应用层实现丢包率检测、重传机制、拥塞控制和可靠传输,并在UDP数据部分中添加自定义头部。具体地,将梯度张量分块并编号,通过UDP传输,然后计算丢包率,超过阈值则触发重传机制;接着聚合已接收数据块更新模型参数;最后根据ACK接收速率进行拥塞控制,动态调整发送速率。本发明能够有效减少拥塞和尾部延迟,提高分布式Transformer大模型训练的效率。
技术关键词
传输优化方法 节点 服务器 数据包发送速率 速率控制 传输模块 分片 消息 链路 重传机制 重传数据包 更新模型参数 重传策略 通畅状态 动态 定时器 指针