融合大模型先验知识的强化学习作业调度优化方法及系统
申请号:CN202510843158
申请日期:2025-06-23
公开号:CN120743454A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种融合大模型先验知识的强化学习作业调度优化方法及系统,解决异构计算环境作业调度难题。本发明结合大模型知识推理与强化学习自适应能力,构建高效调度框架。训练初期,大模型据环境状态与作业需求生成初始调度动作,交互经验存入经验池;PPO算法利用经验池数据优化策略,更新网络参数,同时也会使用熵正则化维持一定的随机探索。大模型辅助训练后,PPO转为自主训练,与环境交互持续优化,最终生成适应性调度策略。本发明融合二者优势,显著提升训练效率和调度性能,平衡SLA与集群能耗,为复杂异构环境作业调度提供创新方案。
技术关键词
作业调度优化方法
模型训练模块
环境状态信息
策略更新
最大化资源利用率
算法
异构计算环境
集群
作业需求
更新网络参数
决策
定义
能耗
阶段
计算方法