摘要
本发明实施例提供了一种智能体的动作执行优化方法,可以应用于人工智能技术领域。该智能体的动作执行优化方法包括:获取智能体的当前动作状态对应的奖励评估信息和约束评估信息;对奖励评估信息和约束评估信息执行策略优化处理,以生成当前策略梯度信息,其中策略优化处理的目标是保证动作执行稳定性并最小化能量消耗;通过当前策略梯度信息对预设策略网络执行训练优化,以生成优化策略网络;基于优化策略网络生成目标动作执行信息,目标动作执行信息用于完成智能体的动作执行优化;其中,约束评估信息包括能量约束评估信息和运动对称性约束评估信息。本发明实施例还提供了一种智能体的动作执行优化装置、设备、存储介质和程序产品。