国产AI算力平台的并行加速技术
概述
1.对标业界主流GPU直接通信架构NVIDIA GPUDirect RDMA,实现跨品牌的自主GPU之间实现同等通信效果,与未使用此技术前能力对比通信效果提升30%。 2.单品牌多机多卡GPU点对点直接通信,与未使用此技术前能力对比通信效果提升20%;单机多卡GPU点对点直接通信,与未使用此技术前能力对比通信效果提升10%。 3.支持华为等至少3种不同厂商的国产xPU芯片,集群规模支持256张国产xPU卡以上,在2TB数据集,13B参数大模型训练场景下,国产xPU资源利用率不低于60%。 4.支持跨品牌GPU断点续训,以2TB数据集,13B参数大模型训练场景为基准,支持训练过程中的故障监测并在30分钟内恢复训练任务。
需求详情
需求背景: 国产AI算力平台的并行加速技术,作为跨品牌GPU通信的共性关键技术,其研发成果对于促进不同品牌GPU的集成应用、优化计算架构、打破技术壁垒具有至关重要的作用。这一技术的突破将加速产业要素的集聚,优化计算领域的产业结构,形成创新驱动的引擎,显著提升产业综合竞争力和行业影响力。云平台作为算力基础设施的管理与供应方可充分发挥此技术的核心优势,实现在高性能计算、AI大模型训练等算力高消耗场景下的多元算力的供应能力。需求描述:1.对标业界主流GPU直接通信架构NVIDIA GPUDirect RDMA,实现跨品牌的自主GPU之间实现同等通信效果,与未使用此技术前能力对比通信效果提升30%。2.单品牌多机多卡GPU点对点直接通信,与未使用此技术前能力对比通信效果提升20%;单机多卡GPU点对点直接通信,与未使用此技术前能力对比通信效果提升10%。3.支持华为等至少3种不同厂商的国产xPU芯片,集群规模支持256张国产xPU卡以上,在2TB数据集,13B参数大模型训练场景下,国产xPU资源利用率不低于60%。4.支持跨品牌GPU断点续训,以2TB数据集,13B参数大模型训练场景为基准,支持训练过程中的故障监测并在30分钟内恢复训练任务。
征集中
金额:50万元-240万元