一种空间连续型绳驱臂的控制方法

申请号：CN202511280761

申请日期：2025-09-09

公开号：CN120791797A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种空间连续型绳驱臂的控制方法，包括：对空间连续型绳驱臂搭建仿真环境；构建空间连续型绳驱臂的强化学习框架，并初始化强化学习框架的经验回放池以及强化学习模型；获取多条专家轨迹，根据多条专家轨迹训练行为克隆模型；向经验回放池中预填入优质数据；利用强化学习模型与仿真环境进行在线交互，并将产生的交互数据存入经验回放池；从经验回放池提取训练数据，在行为克隆模型的辅助下更新强化学习模型，更新完成后，采用更新完成后的强化学习模型对空间连续型绳驱臂进行控制。本发明既可以保留稀疏奖励函数设计简单的优势，又能够有效解决因奖励信号稀疏导致的策略更新方向不明确、收敛困难等问题。

技术关键词

强化学习模型连续型强化学习框架仿真环境轨迹时序漂浮基座驱动单元可读存储介质网络策略更新数据在线计算机表达式蒸馏批量处理器