融合大模型先验知识的强化学习作业调度优化方法及系统

申请号：CN202510843158

申请日期：2025-06-23

公开号：CN120743454A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种融合大模型先验知识的强化学习作业调度优化方法及系统，解决异构计算环境作业调度难题。本发明结合大模型知识推理与强化学习自适应能力，构建高效调度框架。训练初期，大模型据环境状态与作业需求生成初始调度动作，交互经验存入经验池；PPO算法利用经验池数据优化策略，更新网络参数，同时也会使用熵正则化维持一定的随机探索。大模型辅助训练后，PPO转为自主训练，与环境交互持续优化，最终生成适应性调度策略。本发明融合二者优势，显著提升训练效率和调度性能，平衡SLA与集群能耗，为复杂异构环境作业调度提供创新方案。

技术关键词

作业调度优化方法模型训练模块环境状态信息策略更新最大化资源利用率算法异构计算环境集群作业需求更新网络参数决策定义能耗阶段计算方法