一种机器人行走控制方法、装置、设备及介质

申请号：CN202511123960

申请日期：2025-08-12

公开号：CN120909328A

公开日期：2025-11-07

类型：发明专利

摘要

本申请公开了一种机器人行走控制方法、装置、设备及介质，涉及强化学习领域，包括：确定基于KL散度约束的目标损失函数，利用L2参数正则化方法基于机器人的实时环境数据、动作及用于引导机器人学习行走的数值反馈信号确定GRPO算法的原始损失函数；根据目标损失函数和原始损失函数确定改进后损失函数，根据损失值变化对初始学习率进行调整，得到调整后学习率；基于调整后学习率及改进后损失函数对上一策略参数进行更新，得到当前策略参数；在更新策略参数时，基于原始损失函数确定策略梯度，对策略梯度进行裁剪，通过裁剪后梯度向量和当前策略参数对GRPO算法进行训练，以便基于训练后GRPO算法控制机器人行走。提高了算法的稳定性。

技术关键词

策略引导机器人控制机器人行走正则化方法算法机器人行走控制参数更新模块可读存储介质数值存储计算机程序动态信号数据轨迹处理器电子设备