摘要
本发明涉及基于强化学习的智算资源配置方法。技术方案包括:将来自不同来源包括硬件监控、软件日志、网络带宽的监控数据进行融合,形成多维度的时序状态空间;并且使用深度自编码器对多模态数据进行降维和去噪处理;在时序建模中引入多任务学习MTL,同时预测多个任务的资源需求与状态演变;使用生成对抗网络GAN生成多种预测的资源调度策略,并在负载变化时动态选择策略方案;每个策略由独立的子网络实现,共享部分核心知识;通过策略演化机制,根据包括任务完成时间、资源消耗的历史反馈优化策略组合,在包括多云计算平台、边缘计算节点的异构资源环境中,基于资源类型的差异进行策略的细粒度调度;使用强化学习模型中的分布式Q‑learning机制调度决策。