跨数据中心的分布式训练方法、装置及计算机程序产品

申请号：CN202411813805

申请日期：2024-12-10

公开号：CN119759554B

公开日期：2025-11-04

类型：发明专利

摘要

本公开提供了一种跨数据中心的分布式训练方法、装置、电子设备、存储介质及计算机程序产品，涉及人工智能技术领域，具体涉及分布式训练、大模型等技术领域，可应用于分布式训练场景下。具体实现方案为：对于多个并行计算策略中的每个并行计算策略，根据并行计算策略对应的分组规模，对多个数据中心中的计算单元进行分组，得到并行计算策略对应的单元组；根据多个并行计算策略各自产生的通信数据对于通信延迟时长的敏感性，从多个并行计算策略中确定出目标并行计算策略；在对待训练模型的分布式训练过程中，控制目标并行计算策略对应的单元组，在多个数据中心之间交互目标并行计算策略产生的通信数据，并控制其他并行计算策略对应的单元组，在所属的数据中心内部交互其他并行计算策略所产生的通信数据。本公开在维持通信效率的基础上，基于多个数据中心和多种并行计算策略，提高了分布式训练过程的训练效率。

技术关键词

数据并行策略通信链路通信控制单元分布式训练方法跨数据中心流水线环状规模计算机程序产品长距离通信训练样本集服务设备处理器点对点人工智能技术

系统为您推荐了相关专利信息

基于位置感知的无人机通信基站筛选方法、系统及介质

无人机通信基站三维位置信息地图数据库筛选方法通信控制单元

一种基于数字证书的智能款箱加密方法、系统及存储介质

智能款箱加密数据数字证书生成会话密钥身份验证方法

基于韦布尔分布的卫星网络可靠导向型主备路由计算方法

低轨卫星网络贪心算法指标计算方法多普勒

一种光伏功率自动调节方法及系统

功率自动调节方法逆变器电网调度系统功率值分布式通信网络

用于入库环境监控的图像内容提升系统