模型分布式训练调度方法、系统、计算机设备及存储介质
申请号:CN202411708398
申请日期:2024-11-26
公开号:CN119806763A
公开日期:2025-04-11
类型:发明专利
摘要
本发明涉及模型训练技术领域,公开了一种模型分布式训练调度方法、系统、计算机设备及存储介质,该方法包括:构建待调度网络拓扑结构,其中,待调度网络拓扑结构为将模型网络拓扑进行结构转换后获得;确定模型训练并行策略;根据待调度网络拓扑结构以及模型训练并行策略生成调度规划;基于调度规划启动计算节点并给每个计算节点注入环境变量;根据环境变量将模型训练任务进行拆分,并将拆分后的模型子训练任务分配至对应的计算节点上。本发明根据待调度网络拓扑结构以及模型训练并行策略生成调度规划,再根据调度规划对计算节点进行调度以及模型并行训练任务分配,这样可以让并行训练的节点尽量减少跨层通信,从而使并行训练的效率达到最高。
技术关键词
网络拓扑结构
并行策略
分布式训练
恢复故障
规划
流水线
计算机设备
模型训练技术
可读存储介质
调度系统
存储器
处理器
指令
模块
节点数
数据
强度