基于约束奖励的深度强化学习四足机器人运动控制方法及系统

申请号：CN202510082218

申请日期：2025-01-20

公开号：CN119512184B

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种基于约束奖励的深度强化学习四足机器人运动控制方法及系统，建立四足机器人深度强化学习的仿真训练环境；确定仿真训练环境的奖励函数、域随机化参数和成本约束函数；基于机器人信息和第一模拟环境信息，在仿真训练环境中通过奖励函数和成本约束函数对初始策略网络模型进行训练，得到训练完成的策略网络模型；建立推理测试环境，并将训练完成的策略网络模型部署至推理测试环境进行模型推理测试调优，得到目标策略网络模型；将目标策略网络模型部署至四足机器人中，以对四足机器人进行运动控制。本发明降低了仿真训练环境与真实环境的差异，使得四足机器人在真实环境中被目标策略网络模型稳定控制。

技术关键词

策略网络模型四足机器人深度强化学习关节非临时性计算机可读存储介质生成动作加速度运动控制系统教师参数处理器通信网络结构决策模块