一种用于仿真智能体行为策略控制的强化学习训练方法

申请号：CN202411520074

申请日期：2024-10-29

公开号：CN119416909A

公开日期：2025-02-11

类型：发明专利

摘要

本发明提供了一种用于仿真智能体行为策略控制的强化学习训练方法，所述用于仿真智能体行为策略控制的强化学习训练方法包括：根据智能体在环境中的交互得到一条样本；根据所述样本和专家规则集的规则进行比对，计算拟合度；根据所述拟合值按照标准阈值得到目标专家规则集，其中，所述目标专家规则集为符合标准阈值的专家规则集；将当前执行动作和所述专家规则集计算相似度；根据所述相似度进行奖励；循环上述步骤，实现强化学习训练。通过交互样本，通过专家规则集外部干预，进行奖励激励方式，最终使其强化学习训练方法，有助于解决现有缺乏一种智能体进行强化学习方法的技术问题。

技术关键词

学习训练方法规则集策略样本强化学习方法矩阵因子参数优化器算法数据