摘要
本发明涉及路径规划领域,具体提出了一种基于多头注意力机制的深度强化学习路径规划系统,旨在解决不同规模的旅行商问题(TSP)和车辆路径问题(VRP)。系统通过双通道编码处理静态与动态元素,利用多头注意力模块融合节点时空依赖关系,生成全局上下文向量,经指针网络计算节点选择概率分布并决策节点,同时更新系统状态、屏蔽无效节点以符合约束,重复迭代直至生成完整路径序列,优化路径总长度。该系统在强化学习框架下运行,包含actor‑critic双网络架构,采用随机梯度下降法结合裁剪梯度范数等优化方式,利用批量归一化和dropout技术提升性能。本发明能有效处理TSP和VRP问题,兼具良好时间效率与扩展性,为路径规划领域提供创新解决方案。