一种模型并行训练方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种模型并行训练方法及装置
申请号:CN202410845072
申请日期:2024-06-27
公开号:CN118410859B
公开日期:2024-10-01
类型:发明专利
摘要
本发明提供一种模型并行训练方法及装置,该方法包括:根据分布式异构集群中计算节点之间形成的聚类集合确定每个流水并行单元的主节点;流水并行单元是基于流水并行方式划分的计算单元,每个流水并行单元对应训练神经网络模型中的至少一个网络层;根据流水并行单元的主节点和通讯距离对流水并行单元的计算节点集合进行扩展,确定计算节点集合;在计算节点集合的内存总量大于或等于流水并行单元训练至少一个网络层所需的目标内存量的情况下,基于所述计算节点集合训练神经网络模型。本发明提供的方法,能够基于不同硬件设备的分布式异构集群上的大规模神经网络模型的分布式并行训练效率。
技术关键词
流水 主节点 并行训练方法 分布式存储方式 聚类 训练神经网络模型 内存 并行策略 异构 集群 通讯 选举方法 总量 阶段 非暂态计算机可读存储介质 处理器 扩展单元 计算机程序产品
系统为您推荐了相关专利信息
道路网络模型 交通流模型 交叉口 仿真数据 短时间跨度
运动视频数据 数据测量方法 图像 比例尺 数字数据处理技术
多传感器融合 卡尔曼滤波算法 三维点云数据 特征点 误差状态
新能源电力系统 风险评估方法 核支持向量机 代表 风险评估模型
管理特征 运输管理系统 预测特征 重型卡车 连续特征