摘要
本发明涉及计算资源管理技术领域,具体公开了一种分布式AI训练任务的计算资源调度系统,任务接收模块用于接收多个AI训练任务;资源评估模块用于评估分布式计算环境中各计算节点的资源状态;任务分配模块利用深度Q网络将AI训练任务分配给合适的计算节点;任务执行监控模块用于监控已分配任务的执行情况;资源动态调整模块根据任务执行监控模块反馈的信息,动态调整计算节点的资源分配。本发明通过对任务的全面预处理和对计算节点资源状态的实时精准评估,能够为任务分配提供准确依据。利用深度Q网络进行任务分配,使系统能够不断学习和优化任务分配策略,提升资源利用率和任务执行效率。