摘要
本公开提供了一种跨数据中心的分布式训练方法、装置、电子设备、存储介质及计算机程序产品,涉及人工智能技术领域,具体涉及分布式训练、大模型等技术领域,可应用于分布式训练场景下。具体实现方案为:对于多个并行计算策略中的每个并行计算策略,根据并行计算策略对应的分组规模,对多个数据中心中的计算单元进行分组,得到并行计算策略对应的单元组;根据多个并行计算策略各自产生的通信数据对于通信延迟时长的敏感性,从多个并行计算策略中确定出目标并行计算策略;在对待训练模型的分布式训练过程中,控制目标并行计算策略对应的单元组,在多个数据中心之间交互目标并行计算策略产生的通信数据,并控制其他并行计算策略对应的单元组,在所属的数据中心内部交互其他并行计算策略所产生的通信数据。本公开在维持通信效率的基础上,基于多个数据中心和多种并行计算策略,提高了分布式训练过程的训练效率。