一种深度学习训练集群调度方法、设备及计算机可读存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种深度学习训练集群调度方法、设备及计算机可读存储介质
申请号:CN202510994809
申请日期:2025-07-18
公开号:CN120508399B
公开日期:2025-09-12
类型:发明专利
摘要
本发明提供一种深度学习训练集群调度方法、设备及计算机可读存储介质,所述集群调度方法包括:收集深度学习训练任务相关数据;构建有效的多配置深度学习训练任务时长预估模型,并对其进行增量式训练;对集群陆续到达的任务进行时长预测,以生成深度学习任务多配置下的任务时长;将基于预测结果的周期性调度和基于任务队列状态的触发式调度结果相结合,集成综合调度结果。本发明所述深度学习训练集群调度方法一方面能够有效解决现有深度学习训练集群调度技术存在的多种配置下的任务时长难以预估,调度方案忽视CPU以及难以应对持续到达的任务等缺陷;另一方面可实现对深度学习训练集群的合理调度,提高集群资源利用率,优化任务执行效率等。
技术关键词
深度学习训练任务 集群调度方法 深度学习模型 核心 时间预测模型 外推模型 调度器 生成深度学习 周期性 启发式方法 阶段 基准 数据 随机森林 集群资源利用率 集群调度技术 调度设备