概述
研发跨异构硬件的编译能力,支持深度学习、科学计算等并行计算场景;兼容包括DCU\MLU\GPU\NPU等5种异构异构硬件,跨异构硬件的性能优化以及统一的中间表示层;支持CUDA、HIP向国产化的平滑迁移;支持跨异构节点的联合数据/模型/pipeline并行,实现一次开发跨架构部署能力;跨架构编译运行后的性能损耗<5%。
需求详情
需求背景:在国产化算力的推广应用、新型智算中心建设以及在大模型对海量算力需求下的跨智算中心协同模型训练、云边端训推一体化等具有重要意义。国产化异构算力硬件和软件架构差异性较大,并且缺少类似CUDA的统一开发架构,导致软件跨架构重编译工作量巨大。需求描述:研发跨异构硬件的编译能力,支持深度学习、科学计算等并行计算场景;兼容包括DCU\MLU\GPU\NPU等5种异构异构硬件,跨异构硬件的性能优化以及统一的中间表示层;支持CUDA、HIP向国产化的平滑迁移;支持跨异构节点的联合数据/模型/pipeline并行,实现一次开发跨架构部署能力;跨架构编译运行后的性能损耗<5%。合作形式:联合开发,生态合作,产学研