一种基于梯度强化策略优化的电力调度操作票审核模型动态微调方法、系统、设备及存储介质
申请号:CN202510626072
申请日期:2025-05-15
公开号:CN120706502A
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种基于梯度强化策略优化的电力调度操作票审核模型动态微调方法、系统、设备及存储介质,所述方法包括以下步骤:将电力调度规则库转换为可微分损失函数融入GRPO训练框架;提取文本语义与电网拓扑图特征,利用改进后的GRPO训练框架,基于蒙特卡洛搜索树MCTS进行预训练,生成符合电网物理约束的对抗样本模型;实时更新规则在线导入对抗样本模型;本发明聚焦规则动态嵌入与样本不平衡联合优化。
技术关键词
审核模型
微调方法
微调系统
拓扑图
电网拓扑约束
策略
电力调度系统
语义特征
动态
蒙特卡洛
防误闭锁
学习设备
文本
传播算法
梯度下降算法
样本
框架
模块