模型分布式训练优化方法、电子设备和存储介质

申请号：CN202511308976

申请日期：2025-09-15

公开号：CN120803677B

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及人工智能技术领域，提供一种模型分布式训练优化方法、电子设备和存储介质，其中方法包括：基于模型中的计算操作和通信操作，分别构建计算流和通信流；在模型的训练迭代中，针对至少两个微批次的任务，执行交错流水线调度；其中，交错流水线调度包括：将第一微批次的计算任务调度至计算流执行，同时将第二微批次的通信任务调度至通信流执行，或者，将第一微批次的通信任务调度至通信流执行，同时将第二微批次的计算任务调度至计算流执行，以使第一微批次的任务和第二微批次的任务并行处理。本发明通过对不同微批次的任务执行交错流水线调度，实现了计算任务和通信任务的并行处理，提升了硬件利用率和模型训练效率。

技术关键词

分布式训练任务调度通信节点流水线非暂态计算机可读存储介质重构阶段电子设备人工智能技术处理器存储器注意力