摘要
本发明涉及计算机科学中组合优化技术领域的一种基于强化学习的云边计算任务调度方法,建立了服务器队列和任务队列,基于云边计算任务调度优化目标建立系统模型,构建基于注意力机制的LSTM网络模型架构,根据不同任务的注意力权重,输出资源分配的概率分布,接着采用改进后的A3C‑IW强化学习算法,使用异步策略梯度方法,得到任务调度决策。定义强化学习每一步的奖励回报函数R,针对不同的奖励回报的任务调度策略,得到最优计算任务调度策略。本发明通过使用强化学习有效平衡了云边系统资源利用率和服务质量,最小化响应时间、能耗,能更好适应云边协同环境下的计算任务调度。