摘要
本公开提供了一种模型推理调度方法及系统、电子设备和存储介质,该系统包括多个预填充服务器节点和多个解码服务器节点,方法包括:响应于接收到用户请求信息,结合基于深度强化学习的预填充调度模型,获取从多个预填充服务器节点中选择的目标预填充服务器节点和第一优先级;向目标预填充服务器节点中的与第一优先级对应的请求队列发送预填充请求,令目标预填充服务器节点处理预填充请求;预填充请求处理完成,结合基于深度强化学习的解码调度模型,获取从多个解码服务器节点中选择的目标解码服务器节点和第二优先级;向目标解码服务器节点中的与第二优先级对应的请求队列发送解码请求,令目标解码服务器节点处理解码请求;提升推理效率。