一种双足机器人步态网络训练方法

申请号：CN202511238850

申请日期：2025-09-01

公开号：CN120722767B

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种双足机器人步态网络训练方法，构建双通道深度强化学习架构；采集X个双足机器人在仿真环境的简单地形中的运行状态；根据当前运行状态得到当前奖励，并将各信息合并马尔可夫决策过程存入经验回放区；当经验回放区中的马尔可夫决策过程数目大于预设阈值n，从中随机取预设数量的马尔可夫决策过程，更新主网络和对手网络参数；对主网络参数实施扰动，并模拟人类记忆曲线对主网络超参数clip进行持续性调整；将稳定行走时长达到预设时长的双足机器人移至难度等级更高的地形，重复各网络参数更新过程；不断进行课程学习，直至所有双足机器人的累计奖励信息及稳定行走时长均达到预设值。

技术关键词

双足机器人步态网络训练方法策略仿真环境深度强化学习超参数生成电机课程学习方法决策网络结构生成控制指令机器人控制多层感知器样本运动跟踪