摘要
本发明公开了一种空间连续型绳驱臂的控制方法,包括:对空间连续型绳驱臂搭建仿真环境;构建空间连续型绳驱臂的强化学习框架,并初始化强化学习框架的经验回放池以及强化学习模型;获取多条专家轨迹,根据多条专家轨迹训练行为克隆模型;向经验回放池中预填入优质数据;利用强化学习模型与仿真环境进行在线交互,并将产生的交互数据存入经验回放池;从经验回放池提取训练数据,在行为克隆模型的辅助下更新强化学习模型,更新完成后,采用更新完成后的强化学习模型对空间连续型绳驱臂进行控制。本发明既可以保留稀疏奖励函数设计简单的优势,又能够有效解决因奖励信号稀疏导致的策略更新方向不明确、收敛困难等问题。