摘要
本发明涉及计算机领域的一种基于深度强化学习的货到人系统多AGV路径规划方法,融合改进A*全局引导与局部强化学习的双层规划架构,全局层采用非均匀惩罚启发式策略,通过Dijkstra算法计算的固定惩罚项和基于历史路径的实时动态惩罚项协同优化路径分散性;局部层设计异步近端策略优化(APPO)算法,结合LSTM网络处理连续5个时间步的多通道观测状态(静态障碍物、AGV位置、全局路径编码),输出5自由度动作策略。针对仓储可移动货架(Pod)区域设置固定惩罚豁免机制,避免无效避让,提高任务成功率和吞吐量,降低计算负载,为解决货到人系统多AGV路径规划问题提供了一种高效且可扩展的解决方案。