摘要
本说明书提供了大模型推理加速的方法、装置及设备,计算服务设备配置有多个计算节点,并存储有前缀索引结构,用于指示token序列前缀与存有其缓存计算结果的计算节点之间的映射关系;该方法包括执行全局调度机制,基于推理请求的token序列查询所述前缀索引结构进行前缀匹配,以确定一个或多个候选计算节点,以及根据所述实时负载状态从所述候选计算节点中选择一目标计算节点;执行本地调度机制,根据所述推理请求在所述目标计算节点上的前缀匹配程度,为所述推理请求分配一执行优先级进行调度处理;加载与匹配前缀对应的缓存计算结果,并仅对所述推理请求的非前缀部分、调用大模型以执行推理计算。