跨数据中心的分布式训练方法、装置及计算机程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
跨数据中心的分布式训练方法、装置及计算机程序产品
申请号:CN202411813805
申请日期:2024-12-10
公开号:CN119759554B
公开日期:2025-11-04
类型:发明专利
摘要
本公开提供了一种跨数据中心的分布式训练方法、装置、电子设备、存储介质及计算机程序产品,涉及人工智能技术领域,具体涉及分布式训练、大模型等技术领域,可应用于分布式训练场景下。具体实现方案为:对于多个并行计算策略中的每个并行计算策略,根据并行计算策略对应的分组规模,对多个数据中心中的计算单元进行分组,得到并行计算策略对应的单元组;根据多个并行计算策略各自产生的通信数据对于通信延迟时长的敏感性,从多个并行计算策略中确定出目标并行计算策略;在对待训练模型的分布式训练过程中,控制目标并行计算策略对应的单元组,在多个数据中心之间交互目标并行计算策略产生的通信数据,并控制其他并行计算策略对应的单元组,在所属的数据中心内部交互其他并行计算策略所产生的通信数据。本公开在维持通信效率的基础上,基于多个数据中心和多种并行计算策略,提高了分布式训练过程的训练效率。
技术关键词
数据并行策略 通信链路 通信控制单元 分布式训练方法 跨数据中心 流水线 环状 规模 计算机程序产品 长距离通信 训练样本集 服务设备 处理器 点对点 人工智能技术
系统为您推荐了相关专利信息
无人机通信基站 三维位置信息 地图数据库 筛选方法 通信控制单元
智能款箱 加密数据 数字证书 生成会话密钥 身份验证方法
低轨卫星网络 贪心算法 指标 计算方法 多普勒
功率自动调节方法 逆变器 电网调度系统 功率值 分布式通信网络
滤波设备 无线收发器件 平滑算法 幅值 提升系统