基于深度强化学习的机器人控制优化方法

申请号：CN202510888943

申请日期：2025-06-30

公开号：CN120949547A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于深度强化学习的机器人控制优化方法，首先初始化控制系统，构建经验回放缓冲池，并设置Actor网络策略函数、Critic网络权重、超参数及目标网络参数。随后，机器人根据Actor网络生成动作，执行后收集环境反馈，将状态转移元组存入缓冲池。接着，从中采样小批量数据，计算时间差分误差并据此更新网络参数，以最小化价值估计偏差，同时同步优化网络参数，最大化状态‑动作价值函数的期望值，提升控制性能。本发明融合多线程架构与深度强化学习技术，提升机器人控制的实时性、稳定性与泛化能力，有效解决非平稳环境下算法收敛性问题，降低调参与计算成本，增强复杂场景中长期稳定运行的鲁棒性与部署可行性。

技术关键词

机器人控制系统样本缓冲池生成动作更新网络参数深度强化学习技术超参数机器人运动控制关节更新方法多线程架构优化网络参数神经网络参数策略更新