摘要
本发明涉及一种基于知识引导强化学习的综合能源系统优化调度方法,适用于综合能源系统运行调控领域。该方法包括:设置强化学习的状态变量、动作变量和奖励函数;获取系统运行状态向量,基于策略网络确定状态向量对应的控制动作向量;对控制动作向量进行越界判断;若控制动作向量被判断为越界,则修正影响运行成本的控制动作,得到满足越界判断条件的修正后控制动作向量;基于修正后控制动作向量,得到本轮奖励结果,以及下一轮的运行状态向量;将本轮运行状态、控制动作、奖励结果,以及下一轮的运行状态向量组成的四元组保存至经验回放池中;基于经验回放池中数据,对策略网络、价值网络和旧策略网络进行更新,重复上述步骤,直至算法收敛。