摘要
本发明涉及仓储物流管理技术领域,尤其涉及一种基于深度强化学习的动态拣货路径优化方法及系统,包括基于仓库结构化编码数据解析得到拣选器状态向量;根据待处理订单队列数据和拣选器状态向量计算各通道内订单的移动价值密度;根据拣选器状态向量和待处理订单队列数据定义状态空间;基于状态空间和离散执行动作空间,将仓库订单拣选问题建模为马尔可夫决策过程;基于拣选器实时状态和移动价值密度,利用深度强化学习神经网络模型求解马尔可夫决策过程,得到最优拣货路径决策;根据最优拣货路径决策控制拣选器执行拣选操作。本发明结合深度强化学习神经网络模型求解马尔可夫决策过程,实现对拣货路径的精准优化,有效提升了仓库订单拣选的效率。