概述
研发面向大模型训练场景的网络基础架构,包括网络拓扑结构、通信IO聚合、通信和计算协同编排技术;通过网络技术研发,挑战GPU训练效率MFU>60%。
需求详情
需求背景:随着LLM模型参数规模的增大,如何在大规模GPU集群上实现高效的并行计算成为了一个挑战。这涉及到模型和数据的分割、GPU之间的通信效率、计算与通信的重叠等。特别是,大模型参数需要在多个GPU之间分布,GPU需要频繁通信交换梯度以推进训练进程,网络交互效率直接影响到模型的吞吐量和训练效率。对于万卡级别大规模GPU训练集群中的节点需要进行大量的网络通信,针对研究相关网络技术,优化网络通信效率,减少通信延迟、提高带宽利用率、优化网络拓扑结构,对于提升训练效率至关重要。需求描述:研发面向大模型训练场景的网络基础架构,包括网络拓扑结构、通信IO聚合、通信和计算协同编排技术;通过网络技术研发,挑战GPU训练效率MFU>60%。合作形式:联合开发,生态合作,产学研