摘要
本申请公开了一种机器人行走控制方法、装置、设备及介质,涉及强化学习领域,包括:确定基于KL散度约束的目标损失函数,利用L2参数正则化方法基于机器人的实时环境数据、动作及用于引导机器人学习行走的数值反馈信号确定GRPO算法的原始损失函数;根据目标损失函数和原始损失函数确定改进后损失函数,根据损失值变化对初始学习率进行调整,得到调整后学习率;基于调整后学习率及改进后损失函数对上一策略参数进行更新,得到当前策略参数;在更新策略参数时,基于原始损失函数确定策略梯度,对策略梯度进行裁剪,通过裁剪后梯度向量和当前策略参数对GRPO算法进行训练,以便基于训练后GRPO算法控制机器人行走。提高了算法的稳定性。