训练集群的任务调度方法、装置、电子设备、计算机可读存储介质及计算机程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
训练集群的任务调度方法、装置、电子设备、计算机可读存储介质及计算机程序产品
申请号:CN202511368911
申请日期:2025-09-23
公开号:CN120872552B
公开日期:2025-12-09
类型:发明专利
摘要
本申请提供了一种训练集群的任务调度方法、装置、电子设备、计算机可读存储介质及计算机程序产品,应用于训练集群中的调度节点,训练集群还包括多个工作节点,工作节点包括至少一个计算单元;方法包括:对机器学习模型的训练任务进行解析,得到训练任务的多个任务实例和每个任务实例所需的计算单元的第一数量;接收工作节点发送的通信质量参数,并基于通信质量参数确定通信质量矩阵;基于通信质量矩阵和第一数量,从工作节点中选取目标工作节点;将任务实例调度至目标工作节点,以使多个目标工作节点执行多个任务实例,其中,多个目标工作节点通过彼此之间的通信连接交换任务实例的执行结果。通过本申请,能够提高训练任务的执行效率和成功率。
技术关键词
节点 任务调度方法 计算机可执行指令 集群 机器学习模型 计算机程序产品 矩阵 通信带宽 可读存储介质 任务调度装置 电子设备 参数 处理器 模块 存储器