一种机器人行走控制方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种机器人行走控制方法、装置、设备及介质
申请号:CN202511123960
申请日期:2025-08-12
公开号:CN120909328A
公开日期:2025-11-07
类型:发明专利
摘要
本申请公开了一种机器人行走控制方法、装置、设备及介质,涉及强化学习领域,包括:确定基于KL散度约束的目标损失函数,利用L2参数正则化方法基于机器人的实时环境数据、动作及用于引导机器人学习行走的数值反馈信号确定GRPO算法的原始损失函数;根据目标损失函数和原始损失函数确定改进后损失函数,根据损失值变化对初始学习率进行调整,得到调整后学习率;基于调整后学习率及改进后损失函数对上一策略参数进行更新,得到当前策略参数;在更新策略参数时,基于原始损失函数确定策略梯度,对策略梯度进行裁剪,通过裁剪后梯度向量和当前策略参数对GRPO算法进行训练,以便基于训练后GRPO算法控制机器人行走。提高了算法的稳定性。
技术关键词
策略 引导机器人 控制机器人行走 正则化方法 算法 机器人行走控制 参数更新模块 可读存储介质 数值 存储计算机程序 动态 信号 数据 轨迹 处理器 电子设备