摘要
本发明涉及人工智能技术领域,提供一种模型分布式训练优化方法、电子设备和存储介质,其中方法包括:基于模型中的计算操作和通信操作,分别构建计算流和通信流;在模型的训练迭代中,针对至少两个微批次的任务,执行交错流水线调度;其中,交错流水线调度包括:将第一微批次的计算任务调度至计算流执行,同时将第二微批次的通信任务调度至通信流执行,或者,将第一微批次的通信任务调度至通信流执行,同时将第二微批次的计算任务调度至计算流执行,以使第一微批次的任务和第二微批次的任务并行处理。本发明通过对不同微批次的任务执行交错流水线调度,实现了计算任务和通信任务的并行处理,提升了硬件利用率和模型训练效率。