基于VI策略的off-policy输出反馈数据驱动Q学习的控制方法
申请号:CN202410852522
申请日期:2024-06-28
公开号:CN118709559A
公开日期:2024-09-27
类型:发明专利
摘要
本发明公开了一种基于VI策略的off‑policy输出反馈数据驱动Q学习的控制方法、系统、设备及存储介质,所述方法包括:基于单相电压源UPS逆变器的离散时间系统模型,构建逆变器模型的状态空间表达式;基于逆变器模型的状态空间表达式,构建代数黎卡提方程;基于代数黎卡提方程,构建基于状态反馈的VI的off‑policy Q函数;根据基于off‑policy的状态反馈数据驱动Q学习VI算法,采用最小二乘法对off‑policy Q函数求解;通过状态重构引理,将基于状态反馈的VI的off‑policy Q函数推导出基于输出反馈的VI的off‑policy Q函数,以使基于输出反馈的VI的off‑policy Q函数的求解不依赖于系统状态变量的测量。本发明不仅能够准确地控制电力转换和切换操作,以提高系统的能源利用效率,还能够在面对不可测量的状态信息时保持稳定运行,从而提高系统的可靠性和鲁棒性。
技术关键词
状态空间方程
表达式
离散时间采样
信号系统
数据
策略
矩阵
信号发生器
执行存储器存储
逆变器状态
重构
因子
处理器
控制系统
学习算法
可读存储介质
终端设备