摘要
本发明涉及一种多智能体协同的半导体批处理区调度方法,该方法融合对抗学习与多智能体协作机制,构建组批智能体与批次指派智能体,实现批次组合与任务分派的联合优化。引入门控循环单元网络提取车间运行过程中的动态特征,增强调度策略对时序信息的感知与环境适应能力。通过对抗训练生成真实与虚拟经验样本进行预训练,扩展训练数据并提升策略收敛速度。进一步引入关系校正网络建模经验之间的内在关联结构,结合相对熵优化机制提升经验质量和策略更新效率。解决了晶圆加工系统调度通过传统的强化学习方法常常难以满足快速响应和高效调度的问题,本发明可快速、准确生成调度决策,有效缩短晶圆制造过程中的总生产周期,具备较高的工程应用价值。