摘要
本发明公开了一种基于强化学习的自适应控制器调优方法,包括如下步骤:S1、构建光伏控制任务环境;S2、将状态序列输入至长短期记忆网络中,输出嵌入式状态向量;S3、构建包含基础策略模块和快速适应模块的分层策略网络;S4、对分层策略网络进行训练,将嵌入式状态向量输入至分层策略网络生成控制器参数动作,利用多层前馈神经网络与光伏控制任务环境进行交互获取响应与奖励反馈,执行目标值计算和策略优化;S5、使用元学习优化方法获得通用策略初始参数;S6、将优化后的分层策略网络部署至目标光伏控制任务中。本发明适用于光伏控制等多工况动态环境,具备策略迁移能力强、鲁棒性高、自适应性能优越的优势。