摘要
本发明公开了一种基于强化学习的双臂协同采摘方法,采用双臂六自由度机器人,电控装置中存储有基于强化学习的双智能体算法,包括行动者网络、评论家网络、经验回放缓冲区、两个智能体以及存储有st信息的环境模块;两个智能体分别对应一个机械臂;两个智能体在工作中连续读取jointt,评估奖励总和rt;通过优势函数计算行动者网络的目标函数,对评论家网络进行优化,执行动态避障策略,执行多目标贪心采摘策略,划分独立工作空间和公共工作空间,实现双臂协作高效采摘苹果。本发明融合了MAPPO强化学习与多目标贪心采摘策略(MOGPS)算法,解决双臂动作同步和任务分配的难题,克服传统算法在双臂协作中的局限性,不仅提高双臂协作采摘效率,还增强机器人在不同作业场景下的适应能力。