摘要
本公开涉及人工智能技术领域,提供了一种强化学习模型的训练方法、装置、设备及介质,获取智能体采用待训练的强化学习模型所提供的历史策略与环境进行交互的经验数据,再利用经验数据确定待训练的强化学习模型在历史策略与当前策略之间的原始动作概率比,根据当前剪切系数,对原始动作概率比进行剪切约束,得到剪切动作概率比,当前剪切系数是通过策略散度与目标散度之间的差值进行更新得到的,策略散度通过剪切动作概率比确定,根据经验数据与剪切动作概率比确定训练损失,并利用训练损失对待训练的强化学习模型的当前策略进行更新训练,本公开通过优化剪切约束机制,实现当前剪切系数的动态调整,提高模型的训练效率,改善模型的场景适应性。