摘要
本发明提供一种基于深度强化学习的芯片生产物流优化排程方法及系统,涉及深度强化学习技术领域,包括:采集芯片生产线实时数据,利用改进的双向长短时记忆网络和图神经网络提取物料流动时序规律、设备运行周期特征和物流网络拓扑特征,通过对比学习网络生成融合状态表示,构建分层协同的深度强化学习架构,利用改进的编码器‑解码器结构生成策略向量,并通过多智能体执行网络进行分层式联合训练,将实时状态和策略向量输入训练完成的深度强化学习架构,生成调度指令,并结合贝叶斯神经网络系综模型和循环神经网络预测模型进行分层模型预测控制,实现芯片生产物流的优化排程。