摘要
本申请涉及人工智能技术领域,公开了一种基于强化学习的推理请求调度方法、装置、设备及介质,应用于推理集群路由调度系统,其中方法包括:基于当前用于表征系统运行情况的当前状态空间,通过强化学习模型确定调度推理请求相匹配的目标模型实例;接收目标模型实例对推理请求依次经过预填充阶段和解码阶段进行处理返回的结果返回给用户;其中,强化学习模型将评估期望值和选择动作分别置于目标网络和主网络中,主网络根据当前状态空间输出各个动作的期望值并选择最大期望值的动作,目标网络评估执行选择的动作后的目标期望值,更新网络参数,以完成强化学习模型的训练。本申请提供的技术方案能够平衡模型实例的节点负载均衡和KV缓存命中率。