摘要
本发明提供一种基于深度强化学习的机械臂协作抓取方法,涉及机器人应用技术领域,旨在解决复杂场景下多物体抓取方法中网络不稳定,样本效率低,行为不合理的问题。该方法包括:构建协作自主抓取决策网络模型,通过逐像素预测获取推动与抓取动作的状态动作价值分布;引入物体掩码函数,对无效区域进行过滤,减少负样本对模型收敛速度的影响;设计不同行为约束策略对网络预测中不合理的行为进行抑制,优化机械臂动作选择;设计多元奖励函数,动态调整奖励机制,指导模型学习更加符合任务目标的动作策略。本发明通过仿真和真实实验环境验证,能够提高机械臂在非结构化场景下的任务成功率和完成效率,具有良好的鲁棒性和适用性。