摘要
本发明公开了一种多机器人自主探索增强型分层规划框架,解决了现有系统在大型环境、智能体数量增多及传输带宽受限等场景下的短视性和高维学习空间收敛困难问题。提出了一种三层规划框架,结合边界方法的低维动作空间效率与深度强化学习的远视性和最优性。首先,在自由空间中确定边界,创建稀疏地图表示以减轻数据传输负担,并降低深度强化学习动作空间的维度。其次,开发多图神经网络(mGNN),纳入目标状态和机器人的状态,利用基于策略的强化学习计算亲和度,替代传统启发式效用值。最后,通过子序列搜索实现局部路由规划,避免穷举遍历。广泛验证和仿真结果证明,该框架能以更少时间步长和数据传输量实现环境探索,显示了其效率和性能的优越性。