基于深度强化学习的半导体制造中晶圆厂级实时调度方法

申请号：CN202510004033

申请日期：2025-01-02

公开号：CN119398463B

公开日期：2025-04-22

类型：发明专利

摘要

本发明提供基于深度强化学习的半导体制造中晶圆厂级实时调度方法，涉及半导体技术领域，包括基于深度强化学习，通过采集设备状态、批次信息和工艺流程信息构建状态空间向量，输入预训练的深度强化学习网络模型，该模型包括价值评估网络和策略网络。模型生成批次与设备的匹配概率分布，采用分层强化学习方法分解为批次选择和设备分配两个子任务，生成多个候选匹配方案。然后应用多目标奖惩函数评估候选方案，并结合蒙特卡洛树搜索算法选出最优调度方案，并下发加工指令。工序加工过程中采集实时加工数据更新状态空间向量，实现实时调度。

技术关键词

深度强化学习策略分层强化学习门控循环单元网络设备控制系统蒙特卡洛树设备状态信息节点信息提取设备矩阵参数搜索算法梯度方法数据更新计算机程序指令设备故障率先进先出方式序列